O helper do fórum foi ajustado para RAG com o conteúdo existente do fórum, mas sua pergunta não tem nada a ver com isso. Neste caso, a persona “criativa”, que é o LLM vanilla, é um ajuste melhor.
Bot Criativo: “Se houver mais toalhas do que podem ser estendidas sem sobreposição ou se o espaço ficar apertado, reduzindo a exposição ao sol, então pode levar mais tempo. Assumindo que as condições permaneçam ideais e semelhantes à secagem de 10 toalhas, o tempo de secagem deve permanecer o mesmo: 30 minutos.”
Estou tendo sorte na configuração de vários LLMs abertos e comerciais que podem ser combinados com personas de bots de IA padrão e personalizadas. E a ideia de ter múltiplos “agentes” que cada um tem seu próprio contexto RAG, categorias, grupos, etc. é muito legal… abre um monte de casos de uso!
Então… uau! esta é uma “reimaginação” incrível da plataforma Discourse que muitos aplicativos importantes não conseguem fazer por algum motivo… parabéns, pessoal do Disco! ! em frente..
E há uma verdade universal também: modelos de linguagem são coisas diferentes de fazer matemática e os modelos são notoriamente ruins em matemática sem ferramentas externas.
Sim. Os modelos anteriores são especialmente ruins em matemática simples / lógica simples, por exemplo, com este quebra-cabeça simples:
Moro em um prédio de apartamentos com um elevador quebrado.
Se eu entrar nele e apertar o botão para um andar com número par, ele vai para esse andar, mas não abre a porta e volta para onde comecei.
Então, se eu entrar no elevador no andar 1 e apertar o botão do andar 4… e quando ele parar, eu sair e subir mais três lances de escada a pé… em que andar eu vou parar?
melhor resposta: andar 4
Todas as minhas personas de IA do Discourse baseadas em gpt4o acertam isso, (exceto aquela com apenas contexto local / RAG… porque não há contexto relevante…)
mas acabei de rodar isso no gpt 3.5 na interface do OpenAI, e ele respondeu…
Vamos analisar passo a passo:
Você entra no elevador no andar 1 e aperta o botão do andar 4.
O elevador sobe até o andar 4, mas não abre a porta, e então volta para onde você começou (andar 1).
Você sai do elevador no andar 4 e sobe mais três lances de escada a pé.
Como você começou no andar 1 e subiu mais três lances de escada, você terminaria no andar 7.
e estranhamente… no Gemini 1.5 Pro na interface do navegador… pergunte sobre secagem de toalhas..
… com 10 toalhas, cada toalha tem mais área de superfície exposta ao sol e ao ar, permitindo uma secagem mais rápida. Com 15 toalhas, algumas toalhas podem estar juntas ou sobrepostas, reduzindo a área de superfície de secagem efetiva por toalha.
Portanto, não levará simplesmente 50% mais tempo (1,5 vezes 30 minutos) para secar 50% mais toalhas. Provavelmente levará mais tempo, mas não necessariamente um aumento exato de 1,5 vezes.
Estimativa:
Uma estimativa razoável pode ser de cerca de 45 minutos a 1 hora. Isso considera a redução da eficiência de secagem com mais toalhas, mas evita assumir uma relação perfeitamente linear entre o tempo de secagem e o número de toalhas.
Dar ao LLM acesso a uma calculadora certamente ajuda (Chatbot tem tido esse acesso por muito tempo), mas não compensa a má lógica ou raciocínio: fazer o cálculo errado “corretamente” é, sem dúvida, tão ruim quanto fazer um cálculo errado. De fato, o primeiro pode realmente tornar o erro mais convincente, então pode ser mais difícil de detectar?
GPT 3.5 (GUI do navegador OpenAI):
“Se você prioriza tanto alta probabilidade quanto um tamanho de amostra maior, você pode considerar o segundo vendedor , pois ele tem uma alta probabilidade de avaliações positivas com um tamanho de amostra relativamente maior”
Gemini 1.5 Pro (Google AI Studio):
“Você deveria estar mais inclinado a comprar do vendedor 3 , que oferece os dados estatisticamente mais confiáveis.”
Claude 3 Sonnet (GUI do navegador Anthropic):
“De acordo com os princípios padrão de probabilidade e estatística, um tamanho de amostra maior geralmente fornece uma estimativa mais confiável da proporção populacional verdadeira. Seria mais razoável escolher o Vendedor 3” .
Minha persona de IA personalizada do Discourse (Gemini Pro):
“Você provavelmente deveria ir com o produto 3” .
Minha persona de IA personalizada do Discourse (GPT4o):
“O segundo vendedor (96% com 50 avaliações) pode ser uma escolha equilibrada entre alta probabilidade e volume de avaliações suficiente.”
Parte da ‘lógica’ apresentada por esses LLMs é verdadeiramente risível! .. e nenhum deles pareceu captar as nuances estatísticas reais ..
Considerando quantas variáveis existem no jogo dos LLMs, pareceria que frameworks abrangentes de testes ‘in situ’ serão um recurso não opcional daqui para frente (plugin? )
Fatores:
Lançamento/versão do modelo LLM (eles parecem ajustar o fine-tuning regularmente)
Estrutura do prompt em vários níveis
Conteúdo de aprendizado em contexto de vários tipos
Não sendo de deixar as coisas como estão.. Adicionei contexto sobre a teoria de probabilidades de Laplace ao bot de IA do Discourse que o deixou ‘errado’ (baseado em Gemini)
.. conclusão geral: Bots são apenas estranhos.. meio que como pessoas.. mas como pessoas, eles aprendem de maneiras interessantes. Mesmo que no fundo sejam apenas enormes teias estocásticas de inferência probabilística de linguagem.. bots ajudarão com problemas de matemática, lógica e estatística de maneiras que mais do que justificam seu lugar à mesa do banquete do Disco..
Eles não aprendem. Isso é verdade com os modelos da OpenAI, não conheço outros. Um bot pode ou não usar informações fornecidas dependendo de tokens, algoritmos e outras coisas místicas.
Mas podemos apontá-lo na direção certa. E ainda assim, depois de umas cinco respostas, ele se esqueceu disso.
Acho que estamos falando neste tópico sobre métodos relacionados ao aprendizado de contexto, e não ao aprendizado humano convencional de longo prazo… embora seja efêmero… o aprendizado de contexto está se tornando muito interessante devido aos tamanhos de contexto insanamente enormes (por exemplo, +1 milhão de tokens) que os modelos mais recentes estão alcançando.
Por exemplo… se você quisesse que um determinado modelo respondesse de forma mais confiável a perguntas que exigem conhecimento dos princípios de probabilidade de Laplace… com a abordagem de contexto/prompt, você poderia fornecer esse contexto com um prompt de sistema codificado ou recuperação de banco de dados vetorial, etc.
Aqui está um exemplo de experimento baseado no upload de um pequeno documento (~1k palavras) com conhecimento de Laplace
Suposições:
O bot não foi pré-treinado em Laplace (veja os exemplos de falha acima)…
O bot está limitado ao que está na instância do Discourse para conhecimento específico
Configurações de Persona Personalizada
(especialistas em plugins, por favor, corrijam conforme necessário!)
Nome: AlphaBot
Descrição: Bot de quebra-cabeça de probabilidade com conhecimento de Laplace
Modelo de Linguagem Padrão: GeminiPro
Comandos Ativados: Pesquisar, Categorias, Ler
Prompt do Sistema:
Responda a perguntas usando o contexto local fornecido que descreve os métodos de Laplace para comparações de probabilidade. Seja o mais completo e abrangente possível, mas não pesquise na web ou em fontes externas. Use apenas contexto local e concentre-se no uso de técnicas de Laplace.
Upload: Laplace-tutorial.txt
observe como você não precisa mencionar Laplace porque está nas instruções: