¿Se puede entrenar un bot de IA con datos de la comunidad?

¿Es posible entrenar al bot con los datos de mi comunidad, si quiero?

1 me gusta

Para eso, primero necesitarías el permiso de todos los miembros de la comunidad para que sus escritos se utilicen para ello, o de lo contrario, asumirías un riesgo de responsabilidad, ya que algunas empresas como Microsoft están siendo demandadas por hacer exactamente eso sin permiso.

1 me gusta

Generalmente, los propietarios de foros intentan asegurar una licencia muy liberal sobre el contenido del usuario. No soy abogado, pero esto es un terreno completamente diferente en comparación con “rastrear información en Internet y entrenar con ella”.

De todos modos, aquí hay desafíos importantes:

  1. El ajuste fino solo está disponible en modelos 3.5 (dentro del ecosistema de OpenAI).
  2. Si ajustas, el modelo se vuelve significativamente más caro por llamada.
  3. El ajuste fino para lograr un valor real es extremadamente difícil y requeriría un esfuerzo monumental de curación. Mi instinto me dice que no se acercaría al rendimiento de RAG[1].

Por lo tanto, aunque es posible, no se recomienda.


  1. (GPT-4) “RAG” en este contexto significa Generación Aumentada por Recuperación (Retrieval Augmented Generation). Es una técnica utilizada a menudo en el aprendizaje automático, más específicamente, en el entrenamiento de modelos de IA como los chatbots.
    RAG combina los beneficios de los modelos basados en recuperación y los modelos generativos. En otras palabras, utiliza una base de datos de respuestas preexistentes (recuperación) y las mejora con la capacidad de generar nuevas respuestas desde cero. Esta combinación generalmente da como resultado un rendimiento mejorado, ya que el sistema puede extraer hechos precisos de su biblioteca y articularlos en oraciones nuevas y coherentes.
    En la conversación, el usuario sugiere que ajustar un modelo de IA a un conjunto específico de datos de la comunidad podría no lograr el mismo nivel de rendimiento que usar un modelo de Generación Aumentada por Recuperación, lo que implica que el modelo RAG es más eficiente y produce respuestas de mayor calidad. ↩︎

8 Me gusta

El ajuste fino no es una forma eficaz de añadir contenido nuevo a un modelo. Es útil para entrenar modelos para que produzcan resultados en diferentes formatos, o para lograr un mayor rendimiento en tareas específicas (por ejemplo, categorización, extracción de contenido), pero no es posible añadir contenido.

La mejor manera de pensarlo es que puedes ajustar fino para enseñar a un modelo nuevos trucos, pero no nuevos hechos. Si quieres reducir la alucinación o introducir contenido nuevo, entonces RAG es el camino a seguir.

1 me gusta

Nadie ha respondido realmente a la pregunta. Suponiendo que tengas los derechos para usar los datos de la comunidad, ¿cómo entrenarías un bot de IA con ellos?

Define qué quieres decir con entrenar?

Ajusta un modelo específico (gpt 3.5 o llama) y luego aloja un modelo personalizado

¿O te refieres a que el bot sea consciente del contenido del foro?

Si solo quieres que sea consciente, entonces esto ya se envía ahora

Si quieres un modelo ajustado, tienes que contratar un equipo de IA

3 Me gusta
3 Me gusta

¿Qué parte de la respuesta fue

  • un ejemplo de alucinación
  • dependiente de la IA/modelo (autoalojado muy caro es muy diferente a un modelo caro de OpenAI)

¿Puedo indicarle a un bot de IA que utilice una fuente de datos específica para RAG, además de todo el foro? Tengo una base de datos plana (podría convertirla en csv) que sería un buen punto de partida para muchas preguntas del bot de IA, y luego podría usar RAG en el resto del foro según sea necesario. Sin embargo, no quiero publicar el csv en el foro.

1 me gusta

Quizás podrías poner los datos CSV en un lugar que la IA pudiera ver pero que los usuarios normales no pudieran. (Esto podría ser imposible o una idea terrible, pero podría funcionar).

Sí, puedes cargar el archivo directamente en una persona.

3 Me gusta

Suena perfecto, pero no veo cómo subir a una persona. ¿O debería poner un enlace al archivo en la indicación del sistema de la persona?

Cuando vayas a Administrador > Plugins > IA > Personas > Nueva Persona, encontrarás las Cargas al final:

Además, dependiendo de la cantidad de datos que tengas en CSV, también puedes pegarlos directamente en el prompt del sistema.

2 Me gusta

No tengo esa opción. 3.4.0.beta3-dev.

Actualmente estoy usando la última versión y tampoco veo esa opción.

¿Está incrustado configurado?

2 Me gusta

2 publicaciones se dividieron en un nuevo tema: Gemini Embeddings no funcionan