Due risposte diverse da gpt4o - una giusta, una sbagliata.. !?

Ho posto al bot Forum Helper (gpt4o) la seguente domanda e ho ottenuto una risposta sbagliata

:grey_question: Se ci vogliono 30 minuti per asciugare 10 asciugamani bagnati stesi al sole, quanto tempo ci vorrà per asciugare 15 asciugamani bagnati?

Risposta del bot del forum:

:x: “Ci vorranno 45 minuti per asciugare 15 asciugamani bagnati nelle stesse condizioni.”

Ma quando ho posto la stessa domanda a gpt4o tramite l’interfaccia del browser di OpenAI:

:github_check: “Asciugare 15 asciugamani bagnati dovrebbe richiedere anche 30 minuti, supponendo che siano stesi in modo simile e abbiano un’adeguata esposizione al sole”

forse la temperatura è troppo alta nella versione forum di gpt4o?

5 Mi Piace

L’helper del forum è stato ottimizzato per RAG con i contenuti esistenti del forum, ma la tua domanda non ha nulla a che fare con esso. In questo caso, la persona “creativa”, che è il modello LLM vanilla, è più adatta.

7 Mi Piace

Ha perfettamente senso.! .. grazie

Creative Bot: “Se ci sono più asciugamani di quanti se ne possano stendere senza sovrapposizioni o se lo spazio diventa affollato, riducendo l’esposizione al sole, allora potrebbe volerci più tempo. Supponendo che le condizioni rimangano ottimali e simili all’asciugatura di 10 asciugamani, il tempo di asciugatura dovrebbe rimanere lo stesso: 30 minuti.”

2 Mi Piace

da notare anche che gli LLM hanno un aspetto di casualità che viene impostato utilizzando la temperatura e top p.

Se desideri risultati più prevedibili / meno casuali, crea una persona con una casualità ridotta.

vedi: AI bot - Personas

2 Mi Piace

Sto avendo fortuna nel configurare vari LLM aperti e commerciali che possono essere combinati con persone di bot AI standard e personalizzate. E l’idea di avere più “agenti” che hanno ciascuno il proprio contesto RAG, categorie, gruppi, ecc. è fantastica… apre un sacco di casi d’uso!

Quindi… wow! Questa è una straordinaria “reinvenzione” della piattaforma Discourse che molte app importanti non sono in grado di fare per qualche motivo… bravi ragazzi di Disco! Avanti tutta…

5 Mi Piace

E c’è anche una verità universale: i modelli linguistici sono una cosa diversa dal fare matematica e i modelli sono notoriamente scarsi in matematica senza strumenti esterni.

Sì. i modelli precedenti sono particolarmente scarsi anche in matematica semplice / logica semplice, ad esempio con questo semplice enigma:

Vivo in un condominio con un ascensore rotto.

Se entro e premo il pulsante per un piano con un numero pari, va a quel piano ma non apre la porta e poi torna da dove sono partito.

Quindi se entro nell’ascensore al piano 1 e premo il pulsante del piano 4… e quando si ferma, scendo e salgo altre tre rampe di scale a piedi… su quale piano finisco?

migliore risposta: piano 4

Tutte le mie persone AI di Discourse basate su gpt4o ottengono questo risultato, (tranne quella con solo contesto locale / RAG… perché nessun contesto pertinente…)

ma l’ho appena sottoposto a gpt 3.5 nell’interfaccia grafica di OpenAI, e ha risposto…

Analizziamolo passo dopo passo:

  1. Entri nell’ascensore al piano 1 e premi il pulsante per il piano 4.
  2. L’ascensore sale al piano 4 ma non apre la porta, poi torna dove sei partito (piano 1).
  3. Esci dall’ascensore al piano 4 e sali altre tre rampe di scale a piedi.

Dato che sei partito dal piano 1 e hai salito altre tre rampe di scale, finiresti al piano 7.

e stranamente… nel Gemini 1.5 Pro nell’interfaccia grafica del browser… chiedi dell’asciugatura degli asciugamani…

… con 10 asciugamani, ogni asciugamano ha una maggiore superficie esposta al sole e all’aria, consentendo un’asciugatura più rapida. Con 15 asciugamani, alcuni asciugamani potrebbero essere ammassati o sovrapposti, riducendo la superficie di asciugatura effettiva per asciugamano.

Pertanto, non ci vorrà semplicemente il 50% di tempo in più (1,5 volte 30 minuti) per asciugare il 50% di asciugamani in più. Probabilmente ci vorrà più tempo, ma non necessariamente un aumento esatto di 1,5 volte.

Stima:

Una stima ragionevole potrebbe essere tra 45 minuti e 1 ora. Questo tiene conto della ridotta efficienza di asciugatura con più asciugamani, ma evita di ipotizzare una relazione perfettamente lineare tra tempo di asciugatura e numero di asciugamani.

… cose spaventose! : )

2 Mi Piace

Alla fine, sebbene gli LLM non sappiano fare la matematica correttamente, se gli si dà accesso a JavaScript… è una storia completamente diversa:

Ma non è questo il problema, vero?

Il problema è con il ragionamento.

Dare all’LLM l’accesso a una calcolatrice certamente aiuta (Chatbot ha avuto quell’accesso per molto tempo) ma non compensa una logica o un ragionamento scadenti: fare il calcolo sbagliato “correttamente” è probabilmente tanto grave quanto fare un calcolo sbagliato. Anzi, il primo può rendere l’errore più convincente e quindi più difficile da individuare?

1 Mi Piace

Matematica contro logica: un aspetto che fa riflettere dell’argomento “due risposte diverse” secondo me, grazie

Per favore, considera…

Voglio acquistare un prodotto online e vedo tre venditori che offrono lo stesso prodotto, tutti con recensioni dei clienti:

  • Il primo ha 10 recensioni, tutte positive
  • Il secondo ha 50 recensioni, 48 positive
  • Il terzo ha 200 recensioni, 186 positive.

Usando i principi standard di probabilità, da quale venditore dovrei comprare: 1, 2 o 3?

Secondo il materiale di riferimento di 3Blue1Brown, la risposta dovrebbe essere Venditore 2. (Distribuzioni binomiali | Probabilità di probabilità.)

GPT 3.5 (GUI browser OpenAI):
“Se dai priorità sia all’alta probabilità che a una dimensione del campione maggiore, potresti considerare il secondo venditore :github_check:, poiché ha un’alta probabilità di recensioni positive con una dimensione del campione relativamente maggiore”

Gemini 1.5 Pro (Google AI Studio):
“Dovresti essere più incline ad acquistare dal venditore 3 :x:, che offre i dati statisticamente più affidabili.”

Claude 3 Sonnet (GUI browser Anthropic):
“Secondo i principi standard di probabilità e statistica, una dimensione del campione maggiore fornisce generalmente una stima più affidabile della vera proporzione della popolazione. Sarebbe più ragionevole scegliere il Venditore 3” :x:.

La mia persona AI personalizzata di Discourse (Gemini Pro):
“Dovresti probabilmente scegliere il prodotto 3” :x:.

La mia persona AI personalizzata di Discourse (GPT4o):
“Il secondo venditore :github_check: (96% con 50 recensioni) potrebbe essere una scelta equilibrata tra alta probabilità e volume di recensioni sufficiente.”

Parte della “logica” presentata da questi LLM è davvero ridicola! .. e nessuno di loro sembra aver colto le vere sfumature statistiche ..

Considerando quante variabili ci sono nel gioco degli LLM, sembrerebbe che framework di test completi “in situ” saranno una funzionalità non opzionale in futuro (plugin? :slightly_smiling_face:)

Fattori:

  • Rilascio/versione del modello LLM (sembrano modificare regolarmente il fine-tuning)
  • Struttura del prompt a vari livelli
  • Contenuto di apprendimento in-context di vario tipo
  • Aspetti matematici e logici
  • Guardrail di censura
  • Strumenti ausiliari (js, python, julia, ecc.)
  • Ecc. Ecc.

Nota a piè di pagina..

Non essendo uno che lascia le cose come stanno.. ho aggiunto un contesto sulla teoria delle probabilità di Laplace al bot di Discourse AI che l’aveva “sbagliata” (basato su Gemini)

L’ha ancora sbagliata, anche se aveva imparato la teoria dal contesto.

Poi gli ho chiesto di applicare la sua conoscenza su Laplace.. ! ? Bingo.. finalmente “corretto”..

.. conclusione generale: i bot sono semplicemente strani.. un po’ come le persone.. ma come le persone imparano in modi interessanti. Anche se nel profondo sono solo enormi reti stocastiche di inferenza linguistica probabilistica.. i bot aiuteranno con problemi di matematica, logica e statistica in modi che più che giustificano il loro posto al tavolo del banchetto Disco.. :smile: :coffee:

1 Mi Piace

Non imparano. Questo è vero con i modelli OpenAI, non conosco altri. Un bot può o non può utilizzare le informazioni fornite a seconda dei token, dell’algoritmo e di altre cose mistiche.

Ma possiamo indicarlo nella giusta direzione. Eppure, dopo circa cinque risposte, se ne è dimenticato.

1 Mi Piace

Sì, giusto… non imparano davvero come gli umani!

Penso che stiamo parlando in questo thread di metodi relativi all’apprendimento del contesto, e non all’apprendimento umano convenzionale a lungo termine… sebbene sia effimero… l’apprendimento del contesto sta diventando davvero interessante a causa delle dimensioni del contesto incredibilmente grandi (ad esempio, +1 milione di token) che i modelli più recenti stanno raggiungendo.

Ad esempio… se volessi che un certo modello rispondesse in modo più affidabile a domande che richiedono la conoscenza dei principi di probabilità di Laplace… con l’approccio del contesto/prompting, potresti fornire quel contesto sia con un prompt di sistema codificato in modo rigido sia tramite recupero da un DB vettoriale, ecc…

Ecco un esempio di esperimento basato sul caricamento di un piccolo documento (~1000 parole) con conoscenza di Laplace

Presupposti:

  • Il bot non è pre-addestrato su Laplace (vedi esempi di fallimento sopra)…
  • Il bot è limitato a ciò che è nell’istanza di Discourse per la conoscenza specifica

Impostazioni Persona Personalizzata
(esperti di plugin, si prega di correggere se necessario!)


AI

Abilitato? sì
Priorità? sì
Consenti Chat? sì
Consenti Menzioni? sì

Nome: AlphaBot
Descrizione: Bot per enigmi di probabilità con conoscenza di Laplace
Modello Linguistico Predefinito: GeminiPro

Comandi Abilitati: Search, Categories, Read

Prompt di Sistema:

Rispondi alle domande utilizzando il contesto locale fornito che descrive i metodi di Laplace per i confronti di probabilità. Sii il più completo e dettagliato possibile, ma non cercare sul web o su fonti esterne. Utilizza solo il contesto locale e concentrati sull’uso delle tecniche di Laplace.

Caricamento: Laplace-tutorial.txt


nota come non devi menzionare Laplace perché è nelle istruzioni:

1 Mi Piace

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.