gpt4oから2つの異なる回答 - 1つは正解、1つは不正解!?

フォーラムヘルパーボット(gpt4o)に次のような質問をしたところ、間違った回答が得られました。

:grey_question: 日向に広げて干すのに30分かかる濡れたタオル10枚を乾かすには、15枚の濡れたタオルを乾かすのにどれくらい時間がかかりますか?

フォーラムボットの回答:

:x: 「同じ条件下で15枚の濡れたタオルを乾かすには45分かかります。」

しかし、OpenAIブラウザインターフェース経由でgpt4oに同じ質問をしたところ:

:github_check: 「15枚の濡れたタオルを乾かすのにかかる時間も30分であるはずです。ただし、それらは同様の方法で広げられ、太陽に十分にさらされていると仮定します。」

フォーラム版のgpt4oは、温度が高すぎるのでしょうか?

「いいね!」 5

フォーラムヘルパーは、既存のフォーラムコンテンツでRAG(Retrieval-Augmented Generation)を行うように調整されていますが、あなたの質問とは関係ありません。このような場合、「クリエイティブ」ペルソナ、つまりバニラLLMの方が適しています。

「いいね!」 7

理にかなっています! .. ありがとう

クリエイティブボット:「タオルを重ねずに広げることができないほど多い場合、またはスペースが混雑して日光への露出が減少する場合は、時間がかかる可能性があります。条件が最適で、タオル10枚を乾かす場合と同様であると仮定すると、乾燥時間は同じ30分で済みます。」

「いいね!」 2

また、LLMには温度とトップpで設定されるランダム性の側面があることも注目に値します。

より予測可能でランダム性の低い結果が必要な場合は、ランダム性を低下させたペルソナを作成してください。

参照: AI bot - Personas

「いいね!」 2

標準的なAIボットのペルソナとカスタムAIボットのペルソナを組み合わせて使用できる、さまざまなオープンソースおよび商用LLMの設定に幸運にも恵まれています。各AIに独自のRAGコンテキスト、カテゴリ、グループなどを持たせるというアイデアは、非常にクールで、多くのユースケースを開きます!

それで、すごい!これは、多くの主要なアプリが何らかの理由で実行できないDiscourseプラットフォームの驚くべき「再考」です。Discoの皆さんにブラボーです!さあ、前進しましょう。

「いいね!」 5

そして、もう一つ普遍的な真実があります。それは、言語モデルは数学を行うこととは異なるものであり、モデルは外部ツールなしでは数学が苦手であるということです。

はい。以前のモデルは、特に簡単な数学や簡単な論理に関しては、次のような簡単なパズルでさえ非常に苦手でした。

私は壊れたエレベーターのあるアパートに住んでいます。

もし私がエレベーターに乗り、偶数の階のボタンを押すと、その階まで行きますが、ドアが開かず、元の場所に戻ります。

では、私が1階でエレベーターに乗り、4階のボタンを押した場合、停止したときに降りて、さらに3階分歩いて登ると、何階に着くでしょうか?

最も良い回答:4階

gpt4oをベースにした私のすべてのDiscourse AIペルソナはこれを正しく行います。(ローカル/RAGコンテキストのみのもの以外は、関連するコンテキストがないため…)

しかし、私はちょうどOpenAI GUIでgpt 3.5にこれを実行させましたが、それは次のように返答しました。

ステップごとに分解しましょう:

  1. あなたは1階でエレベーターに乗り、4階のボタンを押します。
  2. エレベーターは4階まで上がりますが、ドアは開かず、あなたがいた場所(1階)に戻ります。
  3. あなたは4階でエレベーターを降り、さらに3階分階段を歩いて登ります。

あなたは1階から始まり、さらに3階分登ったので、7階に到着することになります。

そして奇妙なことに、ブラウザGUIのGemini 1.5 Proで…タオルの乾燥について尋ねると…

…タオル10枚の場合、各タオルは太陽と空気への露出面積が大きいため、より速く乾きます。タオル15枚の場合、一部のタオルは束になったり重なったりして、タオルあたりの実際の乾燥面積が減少する可能性があります。

したがって、タオルが50%多くても、単純に50%多く(30分の1.5倍)時間がかかるわけではありません。時間はかかるでしょうが、必ずしも乾燥時間とタオルの数の間に正確に1.5倍の関係があるわけではありません。

推定:

タオルの数が増えるにつれて乾燥効率が低下することを考慮しつつ、乾燥時間とタオルの数の間に完全に線形な関係を仮定しない合理的な推定値は、45分から1時間程度になるでしょう。

…恐ろしいことです! : )

「いいね!」 2

最終的にはLLMはまともに計算できませんが、JavaScriptにアクセスできるようにすれば…全く別の話になります。

しかし、それはここでの問題ではありませんよね?

問題は推論にあります。

LLMに電卓へのアクセスを与えることは確かに役立ちます(Chatbot は長い間そのアクセスを持っていました)が、貧弱な論理や推論を補うものではありません。正しい計算を「正しく」行うことは、間違った計算を間違って行うことと同等に悪いと言えるでしょう。実際、前者はエラーをより説得力のあるものにし、検出がより困難になる可能性がありますか?

「いいね!」 1

数学と論理.. IMOの「2つの異なる答えのトピック」の心を曲げる側面、ありがとう

ご検討ください…

オンラインで商品を購入したいのですが、同じ商品を3人の出品者が提供しており、すべてにカスタマーレビューがあります。

  • 1人目は10件のレビューがあり、すべて肯定的です。
  • 2人目は50件のレビューがあり、48件が肯定的です。
  • 3人目は200件のレビューがあり、186件が肯定的です。

標準的な確率の原則を使用して、どの出品者から購入すべきですか? 1、2、または3?

3Blue1Brownの参考資料によると、答えは出品者2であるべきです。(二項分布 | 確率の確率。(https://www.youtube.com/watch?v=8idr1WZ1A7Q)

GPT 3.5 (OpenAIブラウザGUI):
「高い確率とより大きなサンプルサイズの両方を優先する場合、2番目の出品者:github_check:を検討するかもしれません。これは、比較的大きなサンプルサイズで肯定的なレビューの高い確率を持っています。」

Gemini 1.5 Pro (Google AI Studio):
「最も統計的に信頼性の高いデータを提供する出品者3:x:から購入することに最も傾倒すべきです。」

Claude 3 Sonnet (AnthropicブラウザGUI):
「標準的な確率と統計の原則によれば、より大きなサンプルサイズは、真の母集団の割合のより信頼性の高い推定値を提供します。出品者3:x:を選択するのが最も合理的でしょう。」

私のカスタムDiscourse AIペルソナ (Gemini Pro):
「おそらく商品3:x:を選ぶべきです。」

私のカスタムDiscourse AIペルソナ (GPT4o):
「2番目の:github_check:出品者(50件のレビューで96%)は、高い確率と十分なレビュー数のバランスの取れた選択肢かもしれません。」

これらのLLMが提示する「論理」のいくつかは本当に笑えます!..そして、彼らのどれも真の統計的なニュアンスを理解していないようです..

LLMゲームには多くの変数があることを考えると、包括的な「インサイチュ」テストフレームワークが将来的に必須の機能になる(プラグイン?:slightly_smiling_face:)ように思われます。

要因:

  • LLMモデルのリリース/バージョン(ファインチューニングは定期的に調整されているようです)
  • さまざまなレベルでのプロンプト構造
  • さまざまな種類のコンテキスト内学習コンテンツ
  • 数学と論理の側面
  • 検閲ガードレール
  • 付随ツール(js、python、juliaなど)
  • その他、その他。

脚注..

そのままにしておくのは性に合わないので、間違った(Geminiベースの)Discourse AIボットにラプラスの確率論の文脈を追加しました。

文脈から理論を学んだにもかかわらず、それでも間違っていました。

次に、ラプラスについての知識を適用するように頼みました。!?ビンゴ..ついに「正しい」..

..一般的な結論:ボットは奇妙です..人間のようなものです..しかし、人間のように、彼らはあらゆる種類の興味深い方法で学びます。それらは本質的に巨大な確率的言語推論の確率的ウェブにすぎませんが..ボットは数学、論理、統計の問題を、Discoの宴会の席札の価値以上に役立つ方法で支援してくれるでしょう.. :smile: :coffee:

「いいね!」 1

学習しません。それはOpenAIのモデルでは真実であり、他のモデルについては知りません。ボットは、トークン、アルゴリズム、その他の神秘的なものによって、与えられた情報を使用したり、使用しなかったりすることができます。

しかし、私たちは正しい方向を示すことができます。それでも、5回ほどの回答の後、それを忘れてしまいます。

「いいね!」 1

はい、もっともな点です。人間のように学習するわけではありませんね!

このスレッドでは、従来の人間のような長期学習ではなく、コンテキスト学習に関連する方法について話していると思います。たとえ一時的なものであっても、最新のモデルが達成している信じられないほど巨大なコンテキストサイズ(例:100万トークン以上)のおかげで、コンテキスト学習は非常に興味深いものになっています。

例えば、ラプラス確率の原理に関する知識を必要とする質問に、あるモデルにもっと確実に回答させたい場合、コンテキスト/プロンプトアプローチを使用して、ハードコーディングされたシステムプロンプトやベクトルDBの取得などによって、そのコンテキストを供給することができます。

ラプラスの知識を含む小さなドキュメント(約1000語)をアップロードした実験例を以下に示します。

前提条件:

  • ボットはラプラスについて事前学習されていません(上記の失敗例を参照)。
  • ボットは、特定の知識についてDiscourseインスタンスにあるものに限定されます。

カスタムペルソナ設定
(プラグインの専門家の方、必要に応じて修正してください!)


AI

有効? はい
優先度? はい
チャットを許可? はい
メンションを許可? はい

名前: AlphaBot
説明: ラプラスの知識を持つ確率パズルボット
デフォルト言語モデル: GeminiPro

有効なコマンド: Search, Categories, Read

システムプロンプト:
ラプラスの方法論による確率比較を説明する、ローカルで提供されたコンテキストを使用して質問に回答してください。可能な限り詳細かつ包括的に回答してください。ただし、ウェブや外部ソースを検索しないでください。ローカルコンテキストのみを使用し、ラプラスの手法を使用することに焦点を当ててください。

アップロード: Laplace-tutorial.txt


ラプラスについて言及する必要がないことに注意してください。指示に含まれているためです。

「いいね!」 1

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.