Pode um bot de IA ser treinado com dados da comunidade

É possível treinar o bot com os dados da minha comunidade, se eu quiser?

1 curtida

Para isso, você primeiro precisaria da permissão de todos os membros da comunidade para que seus textos fossem usados para isso, ou então você estaria correndo um risco de responsabilidade, já que algumas empresas como a Microsoft estão sendo processadas por fazer exatamente isso sem permissão.

1 curtida

Geralmente, os proprietários de fóruns tentam garantir uma licença muito liberal sobre o conteúdo do usuário. Não sou advogado, mas isso é um campo completamente diferente em comparação com “rastrear informações na Internet e treinar com isso”.

Independentemente disso, existem desafios significativos aqui:

  1. O ajuste fino (fine-tuning) está disponível apenas em modelos 3.5 (dentro do ecossistema OpenAI).
  2. Se você fizer o ajuste fino, o modelo se torna significativamente mais caro por chamada.
  3. O ajuste fino para alcançar valor real é extremamente difícil e exigiria um esforço colossal de curadoria. Minha intuição é que não chegaria perto do desempenho do RAG[1].

Portanto, embora seja possível, não é recomendado.


  1. (GPT-4) “RAG” neste contexto significa Retrieval Augmented Generation (Geração Aumentada por Recuperação). É uma técnica frequentemente usada em aprendizado de máquina, mais especificamente, no treinamento de modelos de IA como chatbots.
    O RAG combina os benefícios de modelos baseados em recuperação e modelos generativos. Em outras palavras, ele usa um banco de dados de respostas pré-existentes (recuperação) e os aprimora com a capacidade de gerar novas respostas do zero. Essa combinação geralmente resulta em um desempenho aprimorado, pois o sistema pode extrair fatos precisos de sua biblioteca e articulá-los em frases novas e coerentes.
    Na conversa, o usuário sugere que o ajuste fino de um modelo de IA para um conjunto específico de dados da comunidade pode não atingir o mesmo nível de desempenho que o uso de um modelo de Geração Aumentada por Recuperação, implicando que o modelo RAG é mais eficiente e resulta em respostas de maior qualidade. ↩︎

8 curtidas

O ajuste fino não é uma forma eficaz de adicionar novo conteúdo a um modelo. É útil para treinar modelos a produzir resultados em formatos diferentes ou atingir um desempenho superior em tarefas específicas (por exemplo, categorização, extração de conteúdo), mas não é possível adicionar conteúdo.

A melhor forma de pensar sobre isso é que você pode fazer o ajuste fino para ensinar novos truques a um modelo, mas não novos fatos. Se você quiser reduzir a alucinação ou introduzir novo conteúdo, então RAG é o caminho a seguir.

1 curtida

Ninguém realmente respondeu à pergunta. Assumindo que você tenha os direitos de usar os dados da comunidade, como você treinaria um bot de IA com eles?

Defina o que você quer dizer com treinar?

Ajuste fino de um modelo específico (gpt 3.5 ou llama) e, em seguida, hospede um modelo personalizado

Ou você quer dizer fazer com que o bot esteja ciente do conteúdo do fórum?

Se você quer apenas consciência, isso já está disponível agora

Se você quer um modelo ajustado, você tem que contratar uma equipe de IA

3 curtidas
3 curtidas

Qual foi a parte da resposta

  • um exemplo de alucinação
  • dependente de IA/modelo (auto-hospedado muito caro é muito diferente de apenas um modelo caro da OpenAI)

Posso dizer ao bot de IA para usar uma fonte de dados específica para RAG, além de todo o fórum? Tenho um banco de dados plano (poderia transformá-lo em csv) que seria um bom ponto de partida para muitas perguntas do bot de IA, e então ele poderia usar o restante do fórum conforme necessário. Não quero postar o csv no fórum, no entanto.

1 curtida

Talvez você pudesse colocar os dados CSV em um local que a IA pudesse ver, mas que os usuários comuns não pudessem. (Isso pode ser impossível ou uma péssima ideia, mas pode funcionar).

Sim, você pode carregar o arquivo diretamente para uma persona.

3 curtidas

Parece perfeito, mas não vejo como carregar para uma persona. Ou devo colocar um link para o arquivo no prompt do sistema da persona?

Ao ir para Admin > Plugins > IA > Personas > Nova Persona, você encontrará os Uploads no final:

Além disso, dependendo da quantidade de dados que você tem em CSV, você também pode colá-los diretamente no prompt do sistema.

2 curtidas

Não tenho essa opção. 3.4.0.beta3-dev.

Estou usando a versão mais recente e também não vejo essa opção.

O embedding está configurado?

2 curtidas

2 posts foram divididos para um novo tópico: Gemini Embeddings não estão funcionando