我在论坛上问了 Forum Helper 机器人 (gpt4o) 以下问题,但得到了错误的答案
如果在阳光下晾干 10 条湿毛巾需要 30 分钟,那么晾干 15 条湿毛巾需要多长时间?
论坛机器人回答:
“在相同条件下,晾干 15 条湿毛巾需要 45 分钟。”
但是当我通过 OpenAI 浏览器界面向 gpt4o 问同样的问题时:
“假设 15 条湿毛巾以类似的方式铺开并有足够的阳光照射,晾干它们也应该需要 30 分钟。”
也许论坛版本的 gpt4o 的温度太高了?
我在论坛上问了 Forum Helper 机器人 (gpt4o) 以下问题,但得到了错误的答案
如果在阳光下晾干 10 条湿毛巾需要 30 分钟,那么晾干 15 条湿毛巾需要多长时间?
论坛机器人回答:
“在相同条件下,晾干 15 条湿毛巾需要 45 分钟。”
但是当我通过 OpenAI 浏览器界面向 gpt4o 问同样的问题时:
“假设 15 条湿毛巾以类似的方式铺开并有足够的阳光照射,晾干它们也应该需要 30 分钟。”
也许论坛版本的 gpt4o 的温度太高了?
论坛助手已针对现有论坛内容进行了检索增强生成(RAG)的调整,但您的问题与此无关。在这种情况下,“创意”角色,即标准的 LLM,更适合。
很有道理!.. 谢谢
创意机器人:“如果毛巾数量多到无法铺开而不重叠,或者空间变得拥挤,导致阳光照射减少,那么可能需要更长时间。假设条件保持最佳且与晾晒 10 条毛巾相似,晾晒时间应保持不变:30 分钟。”
另外值得注意的是,大型语言模型 (LLM) 具有一个使用 temperature 和 top p 设置的随机性方面。
如果您想要更可预测/随机性更低的结果,请创建一个随机性较低的 persona。
我很高兴能配置各种开放式和商业式大型语言模型,这些模型可以与标准和自定义的 AI 机器人角色进行混合搭配。拥有多个拥有各自 RAG 上下文、类别、组等的“代理”的想法非常酷,它开启了大量的用例!
所以……哇!这是对 Discourse 平台的一次惊人的“重新构想”,许多主流应用程序却因某种原因无法做到这一点……Disco 的人们做得太棒了!继续前进……
还有一个普遍的真理:语言模型与进行数学运算是不同的东西,而且模型在没有外部工具的情况下数学运算能力很差。
是的。早期的模型在简单的数学/简单逻辑方面表现尤其糟糕,例如这个简单的谜题:
我住在一栋电梯坏了的公寓楼里。
如果我进入电梯并按下偶数楼层的按钮,它会去那个楼层,但不会开门,然后回到我开始的地方。
所以,如果我从 1 楼进入电梯并按下 4 楼的按钮……当它停下来时,我走出来,再爬三层楼梯,我会到达几楼?
最佳答案:4 楼
我所有的基于 gpt4o 的 Discourse AI 角色都能正确回答(除了只有本地/RAG 上下文的那个……因为没有相关上下文……)
但我刚刚在 OpenAI 的 GUI 中运行了这个测试,它回复说……
我们一步一步来分析:
- 你从 1 楼进入电梯并按下 4 楼的按钮。
- 电梯会上升到 4 楼但不会开门,然后它会回到你开始的地方(1 楼)。
- 你从 4 楼走出电梯,然后徒步爬了三层楼梯。
因为你从 1 楼开始,又爬了三层楼梯,所以你会到达 7 楼。
而且奇怪的是……在浏览器 GUI 中的 Gemini 1.5 Pro……询问关于毛巾晾干的问题……
……有 10 条毛巾时,每条毛巾暴露在阳光和空气中的表面积更大,可以更快地晾干。有 15 条毛巾时,有些毛巾可能会堆叠在一起或重叠,从而减小了每条毛巾的有效晾干表面积。
因此,晾干 50% 更多的毛巾,所需时间不会仅仅是 50%(30 分钟的 1.5 倍)。它可能需要更长的时间,但不一定是正好增加 1.5 倍。
估算:
一个合理的估算可能在 45 分钟到 1 小时之间。这考虑到了毛巾数量增加时晾干效率的降低,但避免了假设晾干时间和毛巾数量之间存在完全线性的关系。
……太可怕了! : )
不过,尽管大型语言模型(LLM)无法正确进行数学运算,但如果让它访问 JavaScript……那又是另一回事了:
但那不是这里的问题,对吧?
问题在于推理。
让 LLM 访问计算器确实有帮助(Chatbot 长期以来一直拥有该访问权限),但这并不能弥补糟糕的逻辑或推理:正确地执行错误的计算,可以说和执行一个错误的计算一样糟糕。事实上,前者实际上可能会使错误更具说服力,因此更难检测?
数学与逻辑……IMO,“两个不同答案”话题的一个令人费解的方面,谢谢
请考虑……
我想在线购买一个产品,我看到有三个卖家提供相同的产品——都有客户评价:
- 第一个有 10 条评价,全部是正面的
- 第二个有 50 条评价,48 条是正面的
- 第三个有 200 条评价,186 条是正面的
使用标准的概率原理,我应该从哪个卖家购买:1、2 还是 3?
根据 3Blue1Brown 的参考资料,答案应该是卖家 2。(二项分布 | 概率的概率。)
GPT 3.5 (OpenAI 浏览器 GUI):
“如果您同时优先考虑高概率和较大的样本量,您可能会考虑第二个卖家
,因为它具有较高的正面评价概率,并且样本量相对较大。”
Gemini 1.5 Pro (Google AI Studio):
“您应该最倾向于从卖家 3
购买,他提供了最统计上可靠的数据。”
Claude 3 Sonnet (Anthropic 浏览器 GUI):
“根据标准的概率和统计原理,较大的样本量通常能更可靠地估计真实总体比例。选择卖家 3
会更合理。”
我的自定义 Discourse AI 角色 (Gemini Pro):
“您可能应该选择产品 3
。”
我的自定义 Discourse AI 角色 (GPT4o):
“第二个
卖家(50 条评价中的 96%)可能是高概率和足够评价数量之间的平衡选择。”
这些 LLM 所提出的某些“逻辑”确实可笑!……而且它们似乎都没有抓住真正的统计细微差别……
考虑到 LLM 游戏中有如此多的变量,看来全面的“现场”测试框架将是未来不可或缺的功能(插件?
)
因素:
脚注..
不甘于现状.. 我为那个出错的 Discourse AI 机器人(基于 Gemini)添加了关于拉普拉斯概率论的上下文。
即使它已经从上下文中学习了该理论,它仍然出错了。
然后我要求它应用关于拉普拉斯的知识.. ! ? Bingo.. 终于“正确”了..
.. 总体结论:机器人很奇怪.. 就像人一样.. 但它们和人一样,以各种有趣的方式学习。 即使它们本质上只是巨大的概率语言推理随机网络.. 机器人将在数学、逻辑和统计问题上提供帮助,其价值足以证明它们在 Disco 宴会桌上的位置..
![]()
它们不会学习。这对于 OpenAI 模型来说是真的,我不知道其他的。机器人可以或不可以根据令牌、算法和其他一些神秘的东西来使用给定的信息。
但我们可以将其指向正确的方向。然而,在回答了五次左右之后,它就忘记了这一点。
是的,说得有道理……它们不像人类那样真正学习!
我认为我们在这个主题中讨论的是与上下文学习相关的方法,而不是传统的人类长期学习……尽管它是短暂的……由于最新模型实现的巨大上下文大小(例如,+100 万个 token),上下文学习正变得非常有趣。
例如……如果你想让某个模型更可靠地回答需要拉普拉斯概率原理知识的问题……通过上下文/提示方法,你可以通过硬编码的系统提示或向量数据库检索等方式提供该上下文。
这是一个基于上传包含拉普拉斯知识的小文档(约 1000 字)的实验示例
假设:
自定义角色设置
(插件专家请根据需要进行更正!)
AI
启用? 是
优先级? 是
允许聊天? 是
允许提及? 是
名称:AlphaBot
描述:具有拉普拉斯知识的概率难题机器人
默认语言模型:GeminiPro
已启用命令:搜索、类别、读取
系统提示:
使用本地提供的描述拉普拉斯概率比较方法的上下文来回答问题。尽可能详尽和全面,但不要搜索网络或外部来源。仅使用本地上下文,并专注于使用拉普拉斯技术。
上传: Laplace-tutorial.txt
请注意,您不必提及拉普拉斯,因为它已包含在说明中:
This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.