Ho posto al bot Forum Helper (gpt4o) la seguente domanda e ho ottenuto una risposta sbagliata
Se ci vogliono 30 minuti per asciugare 10 asciugamani bagnati stesi al sole, quanto tempo ci vorrà per asciugare 15 asciugamani bagnati?
Risposta del bot del forum:
“Ci vorranno 45 minuti per asciugare 15 asciugamani bagnati nelle stesse condizioni.”
Ma quando ho posto la stessa domanda a gpt4o tramite l’interfaccia del browser di OpenAI:
“Asciugare 15 asciugamani bagnati dovrebbe richiedere anche 30 minuti, supponendo che siano stesi in modo simile e abbiano un’adeguata esposizione al sole”
forse la temperatura è troppo alta nella versione forum di gpt4o?
L’helper del forum è stato ottimizzato per RAG con i contenuti esistenti del forum, ma la tua domanda non ha nulla a che fare con esso. In questo caso, la persona “creativa”, che è il modello LLM vanilla, è più adatta.
Creative Bot: “Se ci sono più asciugamani di quanti se ne possano stendere senza sovrapposizioni o se lo spazio diventa affollato, riducendo l’esposizione al sole, allora potrebbe volerci più tempo. Supponendo che le condizioni rimangano ottimali e simili all’asciugatura di 10 asciugamani, il tempo di asciugatura dovrebbe rimanere lo stesso: 30 minuti.”
Sto avendo fortuna nel configurare vari LLM aperti e commerciali che possono essere combinati con persone di bot AI standard e personalizzate. E l’idea di avere più “agenti” che hanno ciascuno il proprio contesto RAG, categorie, gruppi, ecc. è fantastica… apre un sacco di casi d’uso!
Quindi… wow! Questa è una straordinaria “reinvenzione” della piattaforma Discourse che molte app importanti non sono in grado di fare per qualche motivo… bravi ragazzi di Disco! Avanti tutta…
E c’è anche una verità universale: i modelli linguistici sono una cosa diversa dal fare matematica e i modelli sono notoriamente scarsi in matematica senza strumenti esterni.
Sì. i modelli precedenti sono particolarmente scarsi anche in matematica semplice / logica semplice, ad esempio con questo semplice enigma:
Vivo in un condominio con un ascensore rotto.
Se entro e premo il pulsante per un piano con un numero pari, va a quel piano ma non apre la porta e poi torna da dove sono partito.
Quindi se entro nell’ascensore al piano 1 e premo il pulsante del piano 4… e quando si ferma, scendo e salgo altre tre rampe di scale a piedi… su quale piano finisco?
migliore risposta: piano 4
Tutte le mie persone AI di Discourse basate su gpt4o ottengono questo risultato, (tranne quella con solo contesto locale / RAG… perché nessun contesto pertinente…)
ma l’ho appena sottoposto a gpt 3.5 nell’interfaccia grafica di OpenAI, e ha risposto…
Analizziamolo passo dopo passo:
Entri nell’ascensore al piano 1 e premi il pulsante per il piano 4.
L’ascensore sale al piano 4 ma non apre la porta, poi torna dove sei partito (piano 1).
Esci dall’ascensore al piano 4 e sali altre tre rampe di scale a piedi.
Dato che sei partito dal piano 1 e hai salito altre tre rampe di scale, finiresti al piano 7.
e stranamente… nel Gemini 1.5 Pro nell’interfaccia grafica del browser… chiedi dell’asciugatura degli asciugamani…
… con 10 asciugamani, ogni asciugamano ha una maggiore superficie esposta al sole e all’aria, consentendo un’asciugatura più rapida. Con 15 asciugamani, alcuni asciugamani potrebbero essere ammassati o sovrapposti, riducendo la superficie di asciugatura effettiva per asciugamano.
Pertanto, non ci vorrà semplicemente il 50% di tempo in più (1,5 volte 30 minuti) per asciugare il 50% di asciugamani in più. Probabilmente ci vorrà più tempo, ma non necessariamente un aumento esatto di 1,5 volte.
Stima:
Una stima ragionevole potrebbe essere tra 45 minuti e 1 ora. Questo tiene conto della ridotta efficienza di asciugatura con più asciugamani, ma evita di ipotizzare una relazione perfettamente lineare tra tempo di asciugatura e numero di asciugamani.
Dare all’LLM l’accesso a una calcolatrice certamente aiuta (Chatbot ha avuto quell’accesso per molto tempo) ma non compensa una logica o un ragionamento scadenti: fare il calcolo sbagliato “correttamente” è probabilmente tanto grave quanto fare un calcolo sbagliato. Anzi, il primo può rendere l’errore più convincente e quindi più difficile da individuare?
GPT 3.5 (GUI browser OpenAI):
“Se dai priorità sia all’alta probabilità che a una dimensione del campione maggiore, potresti considerare il secondo venditore , poiché ha un’alta probabilità di recensioni positive con una dimensione del campione relativamente maggiore”
Gemini 1.5 Pro (Google AI Studio):
“Dovresti essere più incline ad acquistare dal venditore 3 , che offre i dati statisticamente più affidabili.”
Claude 3 Sonnet (GUI browser Anthropic):
“Secondo i principi standard di probabilità e statistica, una dimensione del campione maggiore fornisce generalmente una stima più affidabile della vera proporzione della popolazione. Sarebbe più ragionevole scegliere il Venditore 3” .
La mia persona AI personalizzata di Discourse (Gemini Pro):
“Dovresti probabilmente scegliere il prodotto 3” .
La mia persona AI personalizzata di Discourse (GPT4o):
“Il secondo venditore (96% con 50 recensioni) potrebbe essere una scelta equilibrata tra alta probabilità e volume di recensioni sufficiente.”
Parte della “logica” presentata da questi LLM è davvero ridicola! .. e nessuno di loro sembra aver colto le vere sfumature statistiche ..
Considerando quante variabili ci sono nel gioco degli LLM, sembrerebbe che framework di test completi “in situ” saranno una funzionalità non opzionale in futuro (plugin? )
Fattori:
Rilascio/versione del modello LLM (sembrano modificare regolarmente il fine-tuning)
Struttura del prompt a vari livelli
Contenuto di apprendimento in-context di vario tipo
Non essendo uno che lascia le cose come stanno.. ho aggiunto un contesto sulla teoria delle probabilità di Laplace al bot di Discourse AI che l’aveva “sbagliata” (basato su Gemini)
.. conclusione generale: i bot sono semplicemente strani.. un po’ come le persone.. ma come le persone imparano in modi interessanti. Anche se nel profondo sono solo enormi reti stocastiche di inferenza linguistica probabilistica.. i bot aiuteranno con problemi di matematica, logica e statistica in modi che più che giustificano il loro posto al tavolo del banchetto Disco..
Non imparano. Questo è vero con i modelli OpenAI, non conosco altri. Un bot può o non può utilizzare le informazioni fornite a seconda dei token, dell’algoritmo e di altre cose mistiche.
Ma possiamo indicarlo nella giusta direzione. Eppure, dopo circa cinque risposte, se ne è dimenticato.
Penso che stiamo parlando in questo thread di metodi relativi all’apprendimento del contesto, e non all’apprendimento umano convenzionale a lungo termine… sebbene sia effimero… l’apprendimento del contesto sta diventando davvero interessante a causa delle dimensioni del contesto incredibilmente grandi (ad esempio, +1 milione di token) che i modelli più recenti stanno raggiungendo.
Ad esempio… se volessi che un certo modello rispondesse in modo più affidabile a domande che richiedono la conoscenza dei principi di probabilità di Laplace… con l’approccio del contesto/prompting, potresti fornire quel contesto sia con un prompt di sistema codificato in modo rigido sia tramite recupero da un DB vettoriale, ecc…
Ecco un esempio di esperimento basato sul caricamento di un piccolo documento (~1000 parole) con conoscenza di Laplace
Presupposti:
Il bot non è pre-addestrato su Laplace (vedi esempi di fallimento sopra)…
Il bot è limitato a ciò che è nell’istanza di Discourse per la conoscenza specifica
Impostazioni Persona Personalizzata
(esperti di plugin, si prega di correggere se necessario!)
AI
Abilitato? sì
Priorità? sì
Consenti Chat? sì
Consenti Menzioni? sì
Nome: AlphaBot
Descrizione: Bot per enigmi di probabilità con conoscenza di Laplace
Modello Linguistico Predefinito: GeminiPro
Comandi Abilitati: Search, Categories, Read
Prompt di Sistema:
Rispondi alle domande utilizzando il contesto locale fornito che descrive i metodi di Laplace per i confronti di probabilità. Sii il più completo e dettagliato possibile, ma non cercare sul web o su fonti esterne. Utilizza solo il contesto locale e concentrati sull’uso delle tecniche di Laplace.
Caricamento: Laplace-tutorial.txt
nota come non devi menzionare Laplace perché è nelle istruzioni: