Deux réponses différentes de gpt4o - une correcte, une fausse... !?

StevePlex · Mai 15, 2024, 10:42

J’ai posé la question suivante au bot Forum Helper (gpt4o) et j’ai obtenu une mauvaise réponse

S’il faut 30 minutes pour sécher 10 serviettes mouillées étendues au soleil, combien de temps faudra-t-il pour sécher 15 serviettes mouillées ?

Réponse du bot du forum :

« Il faudra 45 minutes pour sécher 15 serviettes mouillées dans les mêmes conditions. »

Mais lorsque j’ai posé la même question à gpt4o via l’interface du navigateur OpenAI :

« Le séchage de 15 serviettes mouillées devrait également prendre 30 minutes, en supposant qu’elles soient étendues de manière similaire et qu’elles aient une exposition adéquate au soleil »

Peut-être que la température est trop élevée dans la version forum de gpt4o ?

Falco · Mai 15, 2024, 10:50

L’assistant de forum est ajusté pour utiliser le RAG avec le contenu existant du forum, mais votre question n’a rien à voir avec cela. Dans ce cas, le persona « créatif », qui est le LLM standard, convient mieux.

StevePlex · Mai 15, 2024, 10:52

Ça a du sens ! .. merci

Creative Bot : « S’il y a plus de serviettes que ce qui peut être étendu sans se chevaucher ou si l’espace devient encombré, réduisant l’exposition au soleil, alors cela peut prendre plus de temps. En supposant que les conditions restent optimales et similaires au séchage de 10 serviettes, le temps de séchage devrait rester le même : 30 minutes. »

sam · Mai 15, 2024, 11:49

Il convient également de noter que les LLM ont un aspect aléatoire qui est défini à l’aide de la température et du top p.

Si vous souhaitez des résultats plus prévisibles / moins aléatoires, créez une persona avec une aléatoire réduite.

Voir : AI bot - Personas

StevePlex · Mai 16, 2024, 3:43

J’ai de la chance dans la configuration de divers LLM ouverts et commerciaux qui peuvent être mélangés et associés à des personas de bots IA standard et personnalisés… et l’idée d’avoir plusieurs « agents » ayant chacun leur propre contexte RAG, catégories, groupes, etc. est très cool… ouvre un tas de cas d’utilisation !

Alors… wow ! C’est une « réimagination » incroyable de la plateforme Discourse que beaucoup d’applications majeures ne parviennent pas à faire pour une raison quelconque… bravo les gens de Disco. ! En avant…

Jagster · Mai 16, 2024, 7:37

Et il y a une vérité universelle : les modèles linguistiques sont une chose différente de la résolution de problèmes mathématiques, et les modèles sont notoirement mauvais en mathématiques sans outils externes.

StevePlex · Mai 16, 2024, 1:33

Oui. les modèles précédents sont particulièrement mauvais, même pour des mathématiques simples / une logique simple, par exemple avec ce casse-tête simple :

J’habite dans un immeuble avec un ascenseur en panne.

Si j’entre dedans et que j’appuie sur le bouton d’un étage avec un numéro pair, il va à cet étage mais n’ouvre pas la porte et retourne à mon point de départ.

Donc si j’entre dans l’ascenseur au 1er étage et que j’appuie sur le bouton du 4ème étage… et quand il s’arrête, je sors et je monte trois étages supplémentaires à pied… à quel étage vais-je me retrouver ?

meilleure réponse : 4ème étage

Toutes mes personas IA Discourse basées sur gpt4o y arrivent , (sauf celle avec uniquement un contexte local / RAG .. car pas de contexte pertinent .. )

mais je viens de faire passer ceci à gpt 3.5 dans l’interface OpenAI, et il a répondu…

Décomposons cela étape par étape :

Vous entrez dans l’ascenseur au 1er étage et appuyez sur le bouton du 4ème étage.

L’ascenseur monte au 4ème étage mais n’ouvre pas la porte, puis il retourne à votre point de départ (le 1er étage).

Vous sortez de l’ascenseur au 4ème étage et montez trois étages supplémentaires à pied.

Puisque vous avez commencé au 1er étage et monté trois étages supplémentaires, vous vous retrouveriez au 7ème étage.

et étrangement… dans l’interface graphique du navigateur Gemini 1.5 Pro… demandez le séchage de serviettes…

… avec 10 serviettes, chaque serviette a plus de surface exposée au soleil et à l’air, permettant un séchage plus rapide. Avec 15 serviettes, certaines serviettes peuvent être groupées ou se chevaucher, réduisant la surface de séchage effective par serviette.

Par conséquent, il ne faudra pas simplement 50 % de temps en plus (1,5 fois 30 minutes) pour sécher 50 % de serviettes en plus. Cela prendra probablement plus de temps, mais pas nécessairement une augmentation exacte de 1,5 fois.

Estimation :

Une estimation raisonnable pourrait être d’environ 45 minutes à 1 heure. Cela prend en compte la réduction de l’efficacité du séchage avec plus de serviettes, mais évite de supposer une relation parfaitement linéaire entre le temps de séchage et le nombre de serviettes.

.. C’est effrayant ! : )

sam · Mai 17, 2024, 6:49

Au final, bien que les LLM ne puissent pas faire de maths correctement, si vous leur donnez accès à JavaScript… c’est une tout autre histoire :

merefield · Mai 17, 2024, 8:27

Mais ce n’est pas le problème ici, n’est-ce pas ?

Le problème réside dans le raisonnement.

Donner accès à une calculatrice au LLM est certainement utile (Chatbot a cet accès depuis longtemps) mais ne compense pas un manque de logique ou de raisonnement : faire le mauvais calcul « correctement » est sans doute aussi mauvais que de faire un mauvais calcul. En fait, le premier peut rendre l’erreur plus convaincante et donc plus difficile à détecter ?

StevePlex · Mai 17, 2024, 6:48

Math vs logic .. un aspect déroutant du sujet des « deux réponses différentes » selon moi, merci

Veuillez considérer…

Je veux acheter un produit en ligne et je vois trois vendeurs proposer le même produit – tous ont des avis clients :

Le premier a 10 avis, tous positifs

Le second a 50 avis, 48 positifs

Le troisième a 200 avis, 186 positifs.

En utilisant les principes standards de probabilité, de quel vendeur devrais-je acheter : 1, 2 ou 3 ?

Selon le matériel de référence de 3Blue1Brown, la réponse devrait être Vendeur 2. (Distributions binomiales | Probabilités de probabilités.)

GPT 3.5 (GUI navigateur OpenAI) :
« Si vous privilégiez à la fois une forte probabilité et une taille d’échantillon plus importante, vous pourriez envisager le deuxième vendeur , car il a une forte probabilité d’avis positifs avec une taille d’échantillon relativement plus grande »

Gemini 1.5 Pro (Google AI Studio) :
« Vous devriez être le plus enclin à acheter auprès du vendeur 3 , qui offre les données les plus statistiquement fiables. »

Claude 3 Sonnet (GUI navigateur Anthropic) :
« Selon les principes standards de probabilité et de statistiques, une taille d’échantillon plus grande fournit généralement une estimation plus fiable de la proportion réelle de la population. Il serait plus raisonnable de choisir le Vendeur 3 » .

Ma persona IA Discourse personnalisée (Gemini Pro) :
« Vous devriez probablement opter pour le produit 3 » .

Ma persona IA Discourse personnalisée (GPT4o) :
« Le deuxième vendeur (96 % avec 50 avis) pourrait être un choix équilibré entre une forte probabilité et un volume d’avis suffisant. »

Une partie de la « logique » avancée par ces LLM est vraiment risible ! .. et aucun d’entre eux ne semble avoir saisi les véritables nuances statistiques ..

Compte tenu du nombre de variables dans le jeu des LLM, il semblerait que des cadres de test complets « in situ » seront une fonctionnalité non optionnelle à l’avenir (plugin ? )

Facteurs :

Version/version du modèle LLM (ils semblent ajuster le réglage fin régulièrement)
Structure du prompt à différents niveaux
Contenu d’apprentissage en contexte de divers types
Aspects mathématiques et logiques
Garde-fous de censure
Outils auxiliaires (js, python, julia, etc.)
Etc. Etc.

StevePlex · Mai 17, 2024, 8:12

Note de bas de page..
N’étant pas du genre à laisser les choses telles quelles… j’ai ajouté du contexte sur la théorie des probabilités de Laplace au bot d’IA Discourse qui s’en est mal sorti (basé sur Gemini)

Il s’en est toujours mal sorti, même s’il avait appris la théorie par le contexte.
Ensuite, je lui ai demandé d’appliquer ses connaissances sur Laplace… ! ? Bingo.. enfin « correct » ..

.. conclusion générale : Les bots sont juste bizarres.. un peu comme les gens.. mais comme les gens, ils apprennent de toutes sortes de manières intéressantes. Même s’ils ne sont au fond que d’immenses réseaux stochastiques d’inférence linguistique probabiliste.. les bots aideront à résoudre des problèmes de mathématiques, de logique et de statistiques d’une manière qui justifie plus que largement leur place à la table du banquet Disco..

Jagster · Mai 18, 2024, 7:44

Ils n’apprennent pas. C’est vrai avec les modèles OpenAI, je ne connais pas les autres. Un bot peut utiliser ou non les informations données en fonction des jetons, de l’algorithme et d’autres choses mystiques.

Mais nous pouvons le pointer dans la bonne direction. Et pourtant, après cinq réponses environ, il l’a oublié.

StevePlex · Mai 18, 2024, 12:50

Oui, c’est un point juste… ils n’apprennent pas vraiment comme les humains !

Je pense que nous parlons dans ce fil de discussion des méthodes relatives à l’apprentissage contextuel, et non de l’apprentissage humain conventionnel à long terme… bien que ce soit éphémère… l’apprentissage contextuel devient vraiment intéressant en raison des tailles de contexte incroyablement énormes (par exemple, +1 million de jetons) que les derniers modèles atteignent.

Par exemple… si vous vouliez qu’un certain modèle réponde de manière plus fiable aux questions qui nécessitent une connaissance des principes de probabilité de Laplace… avec l’approche contextuelle/de prompting, vous pourriez fournir ce contexte soit avec une invite système codée en dur, soit par récupération de base de données vectorielle, etc.

Voici un exemple d’expérience basé sur le téléchargement d’un petit document (~1k mots) avec des connaissances sur Laplace

Hypothèses :

Le bot n’est pas pré-entraîné sur Laplace (voir les exemples d’échec ci-dessus)…
Le bot est limité à ce qui se trouve dans l’instance Discourse pour des connaissances spécifiques

Paramètres de Persona personnalisés
(experts en plugins, veuillez corriger si nécessaire !)

IA

Activé ? oui
Priorité ? oui
Autoriser le chat ? oui
Autoriser les mentions ? oui

Nom : AlphaBot
Description : Bot de puzzles de probabilité avec des connaissances sur Laplace
Modèle de langue par défaut : GeminiPro

Commandes activées : Rechercher, Catégories, Lire

Invite système :

Répondez aux questions en utilisant le contexte local fourni qui décrit les méthodes de Laplace pour les comparaisons de probabilités. Soyez aussi complet et détaillé que possible, mais ne recherchez pas sur le web ou sur des sources externes. Utilisez uniquement le contexte local et concentrez-vous sur l’utilisation des techniques de Laplace.

Téléchargement : Laplace-tutorial.txt

notez que vous n’avez pas à mentionner Laplace car c’est dans les instructions :

system · Juin 17, 2024, 12:51

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.

Sujet		Réponses	Vues
Gpt3.5_bot user Support	4	441	Février 5, 2024
Answer feature Feature	1	595	Avril 1, 2023
[Ai Bot] Add user token tracking, custom AI personas, max context posts, document loading, custom API URLs, and localized chat titles Feature ai , ai-bot	2	487	Mars 22, 2024
Discourse Chatbot :robot: Plugin	208	32023	Novembre 20, 2025
Share AI conversations via a public link Announcements new-feature , ai , ai-bot	6	1013	Mars 15, 2024

Deux réponses différentes de gpt4o - une correcte, une fausse... !?

Sujets connexes