Duas respostas diferentes do gpt4o - uma certa, uma errada.. !?

Fiz a seguinte pergunta ao bot Forum Helper (gpt4o) e obtive a resposta errada

:grey_question: Se leva 30 minutos para secar 10 toalhas molhadas estendidas ao sol, quanto tempo levará para secar 15 toalhas molhadas?

Resposta do bot do fórum:

:x: “Levará 45 minutos para secar 15 toalhas molhadas nas mesmas condições.”

Mas quando fiz a mesma pergunta ao gpt4o através da interface do navegador da OpenAI:

:github_check: “Secar 15 toalhas molhadas também deve levar 30 minutos, assumindo que elas estão estendidas de forma semelhante e têm exposição adequada ao sol”

talvez a temperatura esteja muito alta na versão do fórum do gpt4o?

5 curtidas

O helper do fórum foi ajustado para RAG com o conteúdo existente do fórum, mas sua pergunta não tem nada a ver com isso. Neste caso, a persona “criativa”, que é o LLM vanilla, é um ajuste melhor.

7 curtidas

Faz muito sentido.! .. obrigado

Bot Criativo: “Se houver mais toalhas do que podem ser estendidas sem sobreposição ou se o espaço ficar apertado, reduzindo a exposição ao sol, então pode levar mais tempo. Assumindo que as condições permaneçam ideais e semelhantes à secagem de 10 toalhas, o tempo de secagem deve permanecer o mesmo: 30 minutos.”

2 curtidas

também vale notar que os LLMs têm um aspecto de aleatoriedade que é definido usando temperatura e top p.

Se você quiser resultados mais previsíveis / menos aleatórios, crie uma persona com aleatoriedade diminuída.

veja: AI bot - Personas

2 curtidas

Estou tendo sorte na configuração de vários LLMs abertos e comerciais que podem ser combinados com personas de bots de IA padrão e personalizadas. E a ideia de ter múltiplos “agentes” que cada um tem seu próprio contexto RAG, categorias, grupos, etc. é muito legal… abre um monte de casos de uso!

Então… uau! esta é uma “reimaginação” incrível da plataforma Discourse que muitos aplicativos importantes não conseguem fazer por algum motivo… parabéns, pessoal do Disco! ! em frente..

5 curtidas

E há uma verdade universal também: modelos de linguagem são coisas diferentes de fazer matemática e os modelos são notoriamente ruins em matemática sem ferramentas externas.

Sim. Os modelos anteriores são especialmente ruins em matemática simples / lógica simples, por exemplo, com este quebra-cabeça simples:

Moro em um prédio de apartamentos com um elevador quebrado.

Se eu entrar nele e apertar o botão para um andar com número par, ele vai para esse andar, mas não abre a porta e volta para onde comecei.

Então, se eu entrar no elevador no andar 1 e apertar o botão do andar 4… e quando ele parar, eu sair e subir mais três lances de escada a pé… em que andar eu vou parar?

melhor resposta: andar 4

Todas as minhas personas de IA do Discourse baseadas em gpt4o acertam isso, (exceto aquela com apenas contexto local / RAG… porque não há contexto relevante…)

mas acabei de rodar isso no gpt 3.5 na interface do OpenAI, e ele respondeu…

Vamos analisar passo a passo:

  1. Você entra no elevador no andar 1 e aperta o botão do andar 4.
  2. O elevador sobe até o andar 4, mas não abre a porta, e então volta para onde você começou (andar 1).
  3. Você sai do elevador no andar 4 e sobe mais três lances de escada a pé.

Como você começou no andar 1 e subiu mais três lances de escada, você terminaria no andar 7.

e estranhamente… no Gemini 1.5 Pro na interface do navegador… pergunte sobre secagem de toalhas..

… com 10 toalhas, cada toalha tem mais área de superfície exposta ao sol e ao ar, permitindo uma secagem mais rápida. Com 15 toalhas, algumas toalhas podem estar juntas ou sobrepostas, reduzindo a área de superfície de secagem efetiva por toalha.

Portanto, não levará simplesmente 50% mais tempo (1,5 vezes 30 minutos) para secar 50% mais toalhas. Provavelmente levará mais tempo, mas não necessariamente um aumento exato de 1,5 vezes.

Estimativa:

Uma estimativa razoável pode ser de cerca de 45 minutos a 1 hora. Isso considera a redução da eficiência de secagem com mais toalhas, mas evita assumir uma relação perfeitamente linear entre o tempo de secagem e o número de toalhas.

.. Coisas assustadoras! : )

2 curtidas

No final, embora os LLMs não consigam fazer matemática corretamente, se você lhes der acesso a JavaScript… é uma história totalmente diferente:

Mas essa não é a questão aqui, certamente?

A questão é o raciocínio.

Dar ao LLM acesso a uma calculadora certamente ajuda (Chatbot tem tido esse acesso por muito tempo), mas não compensa a má lógica ou raciocínio: fazer o cálculo errado “corretamente” é, sem dúvida, tão ruim quanto fazer um cálculo errado. De fato, o primeiro pode realmente tornar o erro mais convincente, então pode ser mais difícil de detectar?

1 curtida

Matemática vs. Lógica .. um aspecto alucinante do tópico "duas respostas diferentes" na minha opinião, obrigado

Por favor, considere…

Quero comprar um produto online e vejo três vendedores oferecendo o mesmo produto – todos têm avaliações de clientes:

  • O primeiro tem 10 avaliações, todas positivas
  • O segundo tem 50 avaliações, 48 positivas
  • O terceiro tem 200 avaliações, 186 positivas.

Usando princípios padrão de probabilidade, de qual vendedor devo comprar: 1, 2 ou 3?

De acordo com o material de referência do 3Blue1Brown, a resposta deve ser Vendedor 2. (Distribuições Binomiais | Probabilidades de Probabilidades.)

GPT 3.5 (GUI do navegador OpenAI):
“Se você prioriza tanto alta probabilidade quanto um tamanho de amostra maior, você pode considerar o segundo vendedor :github_check:, pois ele tem uma alta probabilidade de avaliações positivas com um tamanho de amostra relativamente maior”

Gemini 1.5 Pro (Google AI Studio):
“Você deveria estar mais inclinado a comprar do vendedor 3 :x:, que oferece os dados estatisticamente mais confiáveis.”

Claude 3 Sonnet (GUI do navegador Anthropic):
“De acordo com os princípios padrão de probabilidade e estatística, um tamanho de amostra maior geralmente fornece uma estimativa mais confiável da proporção populacional verdadeira. Seria mais razoável escolher o Vendedor 3” :x:.

Minha persona de IA personalizada do Discourse (Gemini Pro):
“Você provavelmente deveria ir com o produto 3” :x:.

Minha persona de IA personalizada do Discourse (GPT4o):
“O segundo vendedor :github_check: (96% com 50 avaliações) pode ser uma escolha equilibrada entre alta probabilidade e volume de avaliações suficiente.”

Parte da ‘lógica’ apresentada por esses LLMs é verdadeiramente risível! .. e nenhum deles pareceu captar as nuances estatísticas reais ..

Considerando quantas variáveis existem no jogo dos LLMs, pareceria que frameworks abrangentes de testes ‘in situ’ serão um recurso não opcional daqui para frente (plugin? :slightly_smiling_face:)

Fatores:

  • Lançamento/versão do modelo LLM (eles parecem ajustar o fine-tuning regularmente)
  • Estrutura do prompt em vários níveis
  • Conteúdo de aprendizado em contexto de vários tipos
  • Aspectos de matemática e lógica
  • Barreiras de censura
  • Ferramentas auxiliares (js, python, julia, etc.)
  • Etc. Etc.

Nota de rodapé..

Não sendo de deixar as coisas como estão.. Adicionei contexto sobre a teoria de probabilidades de Laplace ao bot de IA do Discourse que o deixou ‘errado’ (baseado em Gemini)

Ainda assim, ele errou, mesmo tendo aprendido sobre a teoria pelo contexto.

Então pedi para ele aplicar seu conhecimento sobre Laplace.. ! ? Bingo.. finalmente ‘correto’ ..

.. conclusão geral: Bots são apenas estranhos.. meio que como pessoas.. mas como pessoas, eles aprendem de maneiras interessantes. Mesmo que no fundo sejam apenas enormes teias estocásticas de inferência probabilística de linguagem.. bots ajudarão com problemas de matemática, lógica e estatística de maneiras que mais do que justificam seu lugar à mesa do banquete do Disco.. :smile: :coffee:

1 curtida

Eles não aprendem. Isso é verdade com os modelos da OpenAI, não conheço outros. Um bot pode ou não usar informações fornecidas dependendo de tokens, algoritmos e outras coisas místicas.

Mas podemos apontá-lo na direção certa. E ainda assim, depois de umas cinco respostas, ele se esqueceu disso.

1 curtida

Sim, justo… eles não aprendem como os humanos!

Acho que estamos falando neste tópico sobre métodos relacionados ao aprendizado de contexto, e não ao aprendizado humano convencional de longo prazo… embora seja efêmero… o aprendizado de contexto está se tornando muito interessante devido aos tamanhos de contexto insanamente enormes (por exemplo, +1 milhão de tokens) que os modelos mais recentes estão alcançando.

Por exemplo… se você quisesse que um determinado modelo respondesse de forma mais confiável a perguntas que exigem conhecimento dos princípios de probabilidade de Laplace… com a abordagem de contexto/prompt, você poderia fornecer esse contexto com um prompt de sistema codificado ou recuperação de banco de dados vetorial, etc.

Aqui está um exemplo de experimento baseado no upload de um pequeno documento (~1k palavras) com conhecimento de Laplace

Suposições:

  • O bot não foi pré-treinado em Laplace (veja os exemplos de falha acima)…
  • O bot está limitado ao que está na instância do Discourse para conhecimento específico

Configurações de Persona Personalizada
(especialistas em plugins, por favor, corrijam conforme necessário!)


IA

Ativado? sim
Prioridade? sim
Permitir Chat? sim
Permitir Menções? sim

Nome: AlphaBot
Descrição: Bot de quebra-cabeça de probabilidade com conhecimento de Laplace
Modelo de Linguagem Padrão: GeminiPro

Comandos Ativados: Pesquisar, Categorias, Ler

Prompt do Sistema:

Responda a perguntas usando o contexto local fornecido que descreve os métodos de Laplace para comparações de probabilidade. Seja o mais completo e abrangente possível, mas não pesquise na web ou em fontes externas. Use apenas contexto local e concentre-se no uso de técnicas de Laplace.

Upload: Laplace-tutorial.txt


observe como você não precisa mencionar Laplace porque está nas instruções:

1 curtida

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.