J’ai posé la question suivante au bot Forum Helper (gpt4o) et j’ai obtenu une mauvaise réponse
S’il faut 30 minutes pour sécher 10 serviettes mouillées étendues au soleil, combien de temps faudra-t-il pour sécher 15 serviettes mouillées ?
Réponse du bot du forum :
« Il faudra 45 minutes pour sécher 15 serviettes mouillées dans les mêmes conditions. »
Mais lorsque j’ai posé la même question à gpt4o via l’interface du navigateur OpenAI :
« Le séchage de 15 serviettes mouillées devrait également prendre 30 minutes, en supposant qu’elles soient étendues de manière similaire et qu’elles aient une exposition adéquate au soleil »
Peut-être que la température est trop élevée dans la version forum de gpt4o ?
L’assistant de forum est ajusté pour utiliser le RAG avec le contenu existant du forum, mais votre question n’a rien à voir avec cela. Dans ce cas, le persona « créatif », qui est le LLM standard, convient mieux.
Creative Bot : « S’il y a plus de serviettes que ce qui peut être étendu sans se chevaucher ou si l’espace devient encombré, réduisant l’exposition au soleil, alors cela peut prendre plus de temps. En supposant que les conditions restent optimales et similaires au séchage de 10 serviettes, le temps de séchage devrait rester le même : 30 minutes. »
J’ai de la chance dans la configuration de divers LLM ouverts et commerciaux qui peuvent être mélangés et associés à des personas de bots IA standard et personnalisés… et l’idée d’avoir plusieurs « agents » ayant chacun leur propre contexte RAG, catégories, groupes, etc. est très cool… ouvre un tas de cas d’utilisation !
Alors… wow ! C’est une « réimagination » incroyable de la plateforme Discourse que beaucoup d’applications majeures ne parviennent pas à faire pour une raison quelconque… bravo les gens de Disco. ! En avant…
Et il y a une vérité universelle : les modèles linguistiques sont une chose différente de la résolution de problèmes mathématiques, et les modèles sont notoirement mauvais en mathématiques sans outils externes.
Oui. les modèles précédents sont particulièrement mauvais, même pour des mathématiques simples / une logique simple, par exemple avec ce casse-tête simple :
J’habite dans un immeuble avec un ascenseur en panne.
Si j’entre dedans et que j’appuie sur le bouton d’un étage avec un numéro pair, il va à cet étage mais n’ouvre pas la porte et retourne à mon point de départ.
Donc si j’entre dans l’ascenseur au 1er étage et que j’appuie sur le bouton du 4ème étage… et quand il s’arrête, je sors et je monte trois étages supplémentaires à pied… à quel étage vais-je me retrouver ?
meilleure réponse : 4ème étage
Toutes mes personas IA Discourse basées sur gpt4o y arrivent , (sauf celle avec uniquement un contexte local / RAG .. car pas de contexte pertinent .. )
mais je viens de faire passer ceci à gpt 3.5 dans l’interface OpenAI, et il a répondu…
Décomposons cela étape par étape :
Vous entrez dans l’ascenseur au 1er étage et appuyez sur le bouton du 4ème étage.
L’ascenseur monte au 4ème étage mais n’ouvre pas la porte, puis il retourne à votre point de départ (le 1er étage).
Vous sortez de l’ascenseur au 4ème étage et montez trois étages supplémentaires à pied.
Puisque vous avez commencé au 1er étage et monté trois étages supplémentaires, vous vous retrouveriez au 7ème étage.
et étrangement… dans l’interface graphique du navigateur Gemini 1.5 Pro… demandez le séchage de serviettes…
… avec 10 serviettes, chaque serviette a plus de surface exposée au soleil et à l’air, permettant un séchage plus rapide. Avec 15 serviettes, certaines serviettes peuvent être groupées ou se chevaucher, réduisant la surface de séchage effective par serviette.
Par conséquent, il ne faudra pas simplement 50 % de temps en plus (1,5 fois 30 minutes) pour sécher 50 % de serviettes en plus. Cela prendra probablement plus de temps, mais pas nécessairement une augmentation exacte de 1,5 fois.
Estimation :
Une estimation raisonnable pourrait être d’environ 45 minutes à 1 heure. Cela prend en compte la réduction de l’efficacité du séchage avec plus de serviettes, mais évite de supposer une relation parfaitement linéaire entre le temps de séchage et le nombre de serviettes.
Donner accès à une calculatrice au LLM est certainement utile (Chatbot a cet accès depuis longtemps) mais ne compense pas un manque de logique ou de raisonnement : faire le mauvais calcul « correctement » est sans doute aussi mauvais que de faire un mauvais calcul. En fait, le premier peut rendre l’erreur plus convaincante et donc plus difficile à détecter ?
GPT 3.5 (GUI navigateur OpenAI) :
« Si vous privilégiez à la fois une forte probabilité et une taille d’échantillon plus importante, vous pourriez envisager le deuxième vendeur , car il a une forte probabilité d’avis positifs avec une taille d’échantillon relativement plus grande »
Gemini 1.5 Pro (Google AI Studio) :
« Vous devriez être le plus enclin à acheter auprès du vendeur 3 , qui offre les données les plus statistiquement fiables. »
Claude 3 Sonnet (GUI navigateur Anthropic) :
« Selon les principes standards de probabilité et de statistiques, une taille d’échantillon plus grande fournit généralement une estimation plus fiable de la proportion réelle de la population. Il serait plus raisonnable de choisir le Vendeur 3 » .
Ma persona IA Discourse personnalisée (Gemini Pro) :
« Vous devriez probablement opter pour le produit 3 » .
Ma persona IA Discourse personnalisée (GPT4o) :
« Le deuxième vendeur (96 % avec 50 avis) pourrait être un choix équilibré entre une forte probabilité et un volume d’avis suffisant. »
Une partie de la « logique » avancée par ces LLM est vraiment risible ! .. et aucun d’entre eux ne semble avoir saisi les véritables nuances statistiques ..
Compte tenu du nombre de variables dans le jeu des LLM, il semblerait que des cadres de test complets « in situ » seront une fonctionnalité non optionnelle à l’avenir (plugin ? )
Facteurs :
Version/version du modèle LLM (ils semblent ajuster le réglage fin régulièrement)
Structure du prompt à différents niveaux
Contenu d’apprentissage en contexte de divers types
Note de bas de page..
N’étant pas du genre à laisser les choses telles quelles… j’ai ajouté du contexte sur la théorie des probabilités de Laplace au bot d’IA Discourse qui s’en est mal sorti (basé sur Gemini)
Il s’en est toujours mal sorti, même s’il avait appris la théorie par le contexte.
Ensuite, je lui ai demandé d’appliquer ses connaissances sur Laplace… ! ? Bingo.. enfin « correct » ..
.. conclusion générale : Les bots sont juste bizarres.. un peu comme les gens.. mais comme les gens, ils apprennent de toutes sortes de manières intéressantes. Même s’ils ne sont au fond que d’immenses réseaux stochastiques d’inférence linguistique probabiliste.. les bots aideront à résoudre des problèmes de mathématiques, de logique et de statistiques d’une manière qui justifie plus que largement leur place à la table du banquet Disco..
Ils n’apprennent pas. C’est vrai avec les modèles OpenAI, je ne connais pas les autres. Un bot peut utiliser ou non les informations données en fonction des jetons, de l’algorithme et d’autres choses mystiques.
Mais nous pouvons le pointer dans la bonne direction. Et pourtant, après cinq réponses environ, il l’a oublié.
Oui, c’est un point juste… ils n’apprennent pas vraiment comme les humains !
Je pense que nous parlons dans ce fil de discussion des méthodes relatives à l’apprentissage contextuel, et non de l’apprentissage humain conventionnel à long terme… bien que ce soit éphémère… l’apprentissage contextuel devient vraiment intéressant en raison des tailles de contexte incroyablement énormes (par exemple, +1 million de jetons) que les derniers modèles atteignent.
Par exemple… si vous vouliez qu’un certain modèle réponde de manière plus fiable aux questions qui nécessitent une connaissance des principes de probabilité de Laplace… avec l’approche contextuelle/de prompting, vous pourriez fournir ce contexte soit avec une invite système codée en dur, soit par récupération de base de données vectorielle, etc.
Voici un exemple d’expérience basé sur le téléchargement d’un petit document (~1k mots) avec des connaissances sur Laplace
Hypothèses :
Le bot n’est pas pré-entraîné sur Laplace (voir les exemples d’échec ci-dessus)…
Le bot est limité à ce qui se trouve dans l’instance Discourse pour des connaissances spécifiques
Paramètres de Persona personnalisés
(experts en plugins, veuillez corriger si nécessaire !)
IA
Activé ? oui
Priorité ? oui
Autoriser le chat ? oui
Autoriser les mentions ? oui
Nom : AlphaBot
Description : Bot de puzzles de probabilité avec des connaissances sur Laplace
Modèle de langue par défaut : GeminiPro
Commandes activées : Rechercher, Catégories, Lire
Invite système :
Répondez aux questions en utilisant le contexte local fourni qui décrit les méthodes de Laplace pour les comparaisons de probabilités. Soyez aussi complet et détaillé que possible, mais ne recherchez pas sur le web ou sur des sources externes. Utilisez uniquement le contexte local et concentrez-vous sur l’utilisation des techniques de Laplace.
Téléchargement : Laplace-tutorial.txt
notez que vous n’avez pas à mentionner Laplace car c’est dans les instructions :