Zwei unterschiedliche Antworten von GPT4O – eine richtig, eine falsch.. !?

Ich habe dem Forum-Helfer-Bot (gpt4o) die folgende Frage gestellt und eine falsche Antwort erhalten

:grey_question: Wenn es 30 Minuten dauert, 10 nasse Handtücher in der Sonne auszubreiten und zu trocknen, wie lange dauert es dann, 15 nasse Handtücher zu trocknen?

Antwort des Forum-Bots:

:x: „Es dauert 45 Minuten, 15 nasse Handtücher unter den gleichen Bedingungen zu trocknen.“

Aber als ich dieselbe Frage über die OpenAI-Browseroberfläche an gpt4o stellte:

:github_check: „Das Trocknen von 15 nassen Handtüchern sollte ebenfalls 30 Minuten dauern, vorausgesetzt, sie werden auf ähnliche Weise ausgebreitet und haben eine ausreichende Sonneneinstrahlung.“

vielleicht ist die Temperatur in der Forum-Version von gpt4o zu hoch?

5 „Gefällt mir“

Forum-Helfer wird mit vorhandenen Foreninhalten auf RAG umgestellt, aber Ihre Frage hat nichts damit zu tun. In diesem Fall passt die „kreative“ Persona, also das Vanilla-LLM, besser.

7 „Gefällt mir“

Macht Sinn.! .. danke
Kreativer Bot: „Wenn mehr Handtücher vorhanden sind, als ausgelegt werden können, ohne sich zu überlappen, oder wenn der Platz überfüllt wird, was die Sonneneinstrahlung verringert, kann es länger dauern. Unter der Annahme, dass die Bedingungen optimal bleiben und denen beim Trocknen von 10 Handtüchern ähneln, sollte die Trocknungszeit gleich bleiben: 30 Minuten.“

2 „Gefällt mir“

Es ist auch erwähnenswert, dass LLMs einen Zufallsaspekt haben, der mit Temperatur und Top-p eingestellt wird.

Wenn Sie vorhersagbarere / weniger zufällige Ergebnisse wünschen, erstellen Sie eine Persona mit verringerter Zufälligkeit.

Siehe: AI bot - Personas

2 „Gefällt mir“

Ich habe Glück bei der Konfiguration verschiedener offener und kommerzieller LLMs, die mit Standard- und benutzerdefinierten KI-Bot-Personas gemischt und angepasst werden können. Die Idee, mehrere „Agenten“ zu haben, die jeweils ihren eigenen RAG-Kontext, Kategorien, Gruppen usw. haben, ist sehr cool. Das eröffnet eine Menge Anwendungsfälle!

Wow! Das ist eine erstaunliche „Neuerfindung“ der Discourse-Plattform, die aus irgendeinem Grund viele große Apps nicht schaffen. Bravo, Disco-Leute! Weiter so..

5 „Gefällt mir“

Und es gibt eine universelle Wahrheit: Sprachmodelle sind etwas anderes als Mathematik, und Modelle sind ohne externe Werkzeuge notorisch schlecht in Mathematik.

Ja. Die früheren Modelle sind besonders schlecht darin, selbst einfache mathematische/logische Probleme zu lösen. Nehmen wir zum Beispiel dieses einfache Rätsel:

Ich wohne in einem Apartmentgebäude mit einem defekten Aufzug.

Wenn ich ihn betrete und den Knopf für eine Etage mit gerader Zahl drücke, fährt er zu dieser Etage, öffnet aber die Tür nicht und kehrt dann zu meinem Ausgangspunkt zurück.

Wenn ich also im 1. Stock einsteige und den Knopf für Etage 4 drücke, und wenn er anhält, steige ich aus und steige zu Fuß drei weitere Stockwerke hinauf, auf welcher Etage lande ich dann?

Beste Antwort: Etage 4

Alle meine Discourse AI-Personas, die auf gpt4o basieren, lösen dies richtig (außer der mit nur lokalem / RAG-Kontext, da kein relevanter Kontext vorhanden ist).

Aber ich habe dies gerade mit gpt 3.5 in der OpenAI-GUI ausprobiert, und es antwortete:

Lassen Sie es uns Schritt für Schritt aufschlüsseln:

  1. Sie steigen im 1. Stock in den Aufzug und drücken den Knopf für Etage 4.
  2. Der Aufzug fährt bis zur Etage 4, öffnet aber die Tür nicht und kehrt dann zu Ihrem Ausgangspunkt (1. Stock) zurück.
  3. Sie steigen im 4. Stock aus dem Aufzug aus und steigen zu Fuß drei weitere Stockwerke hinauf.

Da Sie im 1. Stock begonnen haben und drei zusätzliche Stockwerke erklommen haben, würden Sie im 7. Stock landen.

Und seltsamerweise… im Gemini 1.5 Pro im Browser-GUI… fragen Sie nach dem Trocknen von Handtüchern.

… mit 10 Handtüchern hat jedes Handtuch mehr Oberfläche, die der Sonne und der Luft ausgesetzt ist, was ein schnelleres Trocknen ermöglicht. Bei 15 Handtüchern können einige Handtücher zusammengeknüllt oder überlappend sein, was die effektive Trocknungsfläche pro Handtuch reduziert.

Daher dauert es nicht einfach 50 % länger (das 1,5-fache von 30 Minuten), um 50 % mehr Handtücher zu trocknen. Es wird wahrscheinlich länger dauern, aber nicht unbedingt eine exakte 1,5-fache Steigerung.

Schätzung:

Eine vernünftige Schätzung könnte etwa 45 Minuten bis 1 Stunde betragen. Dies berücksichtigt die reduzierte Trocknungseffizienz bei mehr Handtüchern, vermeidet aber die Annahme einer perfekt linearen Beziehung zwischen Trocknungszeit und Handtuchanzahl.

… Beängstigende Dinge! : )

2 „Gefällt mir“

Obwohl LLMs letztendlich keine korrekten mathematischen Berechnungen durchführen können, ist es eine völlig andere Geschichte, wenn man ihnen Zugriff auf JavaScript gibt:

Aber das ist doch hier nicht das Problem, oder?

Das Problem liegt in der Argumentation.

Dem LLM Zugang zu einem Taschenrechner zu geben, hilft sicherlich (Chatbot hat diesen Zugang schon seit langem), aber das macht schlechte Logik oder Argumentation nicht wett: Die falsche Berechnung "korrekt" durchzuführen, ist wohl genauso schlimm wie eine falsche Berechnung durchzuführen. Tatsächlich kann ersteres den Fehler sogar überzeugender machen und ihn daher schwerer zu erkennen sein?

1 „Gefällt mir“

Mathematik vs. Logik .. ein verblüffender Aspekt des Themas „zwei verschiedene Antworten“ meiner Meinung nach, danke

Bitte bedenken Sie…

Ich möchte ein Produkt online kaufen und sehe drei Verkäufer, die dasselbe Produkt anbieten – alle haben Kundenrezensionen:

  • Der erste hat 10 Bewertungen, alle positiv
  • Der zweite hat 50 Bewertungen, 48 positiv
  • Der dritte hat 200 Bewertungen, 186 positiv.

Bei Verwendung der Standardprinzipien der Wahrscheinlichkeit, bei welchem Verkäufer sollte ich kaufen: 1, 2 oder 3?

Laut 3Blue1Brown Referenzmaterial sollte die Antwort Verkäufer 2 sein. (Binomialverteilungen | Wahrscheinlichkeiten von Wahrscheinlichkeiten.)

GPT 3.5 (OpenAI Browser GUI):
„Wenn Sie sowohl eine hohe Wahrscheinlichkeit als auch eine größere Stichprobengröße priorisieren, könnten Sie den zweiten Verkäufer in Betracht ziehen :github_check:, da er eine hohe Wahrscheinlichkeit positiver Bewertungen bei einer relativ größeren Stichprobengröße aufweist.“

Gemini 1.5 Pro (Google AI Studio):
„Sie sollten am ehesten bei Verkäufer 3 :x: kaufen, der die statistisch zuverlässigsten Daten liefert.“

Claude 3 Sonnet (Anthropic Browser GUI):
„Nach den Standardprinzipien der Wahrscheinlichkeit und Statistik liefert eine größere Stichprobengröße im Allgemeinen eine zuverlässigere Schätzung des wahren Populationsanteils. Es wäre am vernünftigsten, Verkäufer 3 zu wählen“ :x:.

Meine benutzerdefinierte Discourse AI-Persona (Gemini Pro):
„Sie sollten wahrscheinlich Produkt 3 wählen“ :x:.

Meine benutzerdefinierte Discourse AI-Persona (GPT4o):
„Der zweite :github_check: Verkäufer (96 % bei 50 Bewertungen) könnte eine ausgewogene Wahl zwischen hoher Wahrscheinlichkeit und ausreichendem Bewertungsvolumen sein.“

Einige der von diesen LLMs vorgebrachten „Logiken“ sind wirklich zum Lachen! .. und keiner von ihnen schien die wirklichen statistischen Nuancen zu erfassen ..

Angesichts der vielen Variablen im LLM-Spiel scheint es, dass umfassende „In-situ“-Test-Frameworks in Zukunft eine nicht optionale Funktion sein werden (Plugin? :slightly_smiling_face:)

Faktoren:

  • LLM-Modell-Release/Version (sie scheinen das Fine-Tuning regelmäßig zu optimieren)
  • Prompt-Struktur auf verschiedenen Ebenen
  • In-Context-Learning-Inhalte verschiedener Arten
  • Mathematik- und Logikaspekte
  • Zensur-Schutzvorrichtungen
  • Zusätzliche Werkzeuge (js, python, julia, etc.)
  • Etc. Etc.

Fußnote..

Da ich nicht derjenige bin, der es dabei belässt, habe ich dem Discourse AI-Bot, der es „falsch“ gemacht hat (basierend auf Gemini), Kontext zur Laplace-Wahrscheinlichkeitstheorie hinzugefügt.

Er hat es immer noch falsch gemacht, obwohl er aus dem Kontext über die Theorie gelernt hatte.

Dann bat ich ihn, sein Wissen über Laplace anzuwenden. ! ? Bingo.. endlich „richtig“..

.. allgemeine Schlussfolgerung: Bots sind einfach seltsam.. irgendwie wie Menschen.. aber wie Menschen lernen sie auf vielfältige interessante Weise. Auch wenn sie im Grunde nur riesige stochastische Netze probabilistischer Sprachinferenzen sind.. werden Bots bei Mathe-, Logik- und Statistikproblemen auf eine Weise helfen, die ihren Platz am Disco-Bankettisch mehr als rechtfertigt.. : lächeln : : kaffee :

1 „Gefällt mir“

Sie lernen nicht. Das stimmt für OpenAI-Modelle, ich kenne keine anderen. Ein Bot kann gegebene Informationen nutzen oder nicht, abhängig von Tokens, Algorithmus und einigen anderen mystischen Dingen.

Aber wir können ihn in die richtige Richtung weisen. Und doch hat er das nach etwa fünf Antworten vergessen.

1 „Gefällt mir“

Ja, das ist ein guter Punkt… sie lernen nicht wirklich wie Menschen!

Ich denke, wir sprechen in diesem Thread über Methoden, die sich auf Kontextlernen beziehen, und nicht über konventionelles menschliches Langzeitlernen… obwohl es vergänglich ist, wird Kontextlernen wirklich interessant wegen der unglaublich großen Kontextgrößen (z. B. +1 Mio. Token), die die neuesten Modelle erreichen.

Wenn Sie zum Beispiel möchten, dass ein bestimmtes Modell Fragen, die Kenntnisse der Laplace-Wahrscheinlichkeitsprinzipien erfordern, zuverlässiger beantwortet, könnten Sie mit dem Kontext-/Prompting-Ansatz diesen Kontext entweder mit einem fest codierten System-Prompt oder durch Abruf aus einer Vektor-Datenbank usw. einspeisen.

Hier ist ein Beispiel für ein Experiment, das auf dem Hochladen eines kleinen Dokuments (ca. 1.000 Wörter) mit Laplace-Kenntnissen basiert.

Annahmen:

  • Der Bot ist nicht auf Laplace vortrainiert (siehe obige Fehlbeispiele).
  • Der Bot ist auf das beschränkt, was in der Discourse-Instanz für spezifisches Wissen vorhanden ist.

Benutzerdefinierte Persona-Einstellungen
(Plugin-Experten bitte nach Bedarf korrigieren!)


KI

Aktiviert? ja
Priorität? ja
Chat erlauben? ja
Erwähnungen erlauben? ja

Name: AlphaBot
Beschreibung: Bot für Wahrscheinlichkeitsrätsel mit Laplace-Kenntnissen
Standard-Sprachmodell: GeminiPro

Aktivierte Befehle: Suchen, Kategorien, Lesen

System-Prompt:
Beantworten Sie Fragen mithilfe des lokal bereitgestellten Kontexts, der Laplace-Methoden für Wahrscheinlichkeitsvergleiche beschreibt. Seien Sie so gründlich und umfassend wie möglich, aber durchsuchen Sie nicht das Web oder externe Quellen. Verwenden Sie nur lokalen Kontext und konzentrieren Sie sich auf die Verwendung von Laplace-Techniken.

Upload: Laplace-tutorial.txt


Beachten Sie, dass Sie Laplace nicht erwähnen müssen, da es in den Anweisungen steht:

1 „Gefällt mir“

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.