@SimonBiggs Después de reflexionar un poco más sobre el problema, me di cuenta de que podría ser un mejor enfoque simplemente crear un servicio externo cerrado que pudiera recibir invitaciones para unirse a un foro de Discourse, configurar su perfil y luego participar como usuario, utilizando la API. El perfil sería realista pero estaría claro en la descripción de que es un bot.
Descubrí lo que haría el bot, pero no tiene que ser un plugin real para Discourse. Solo tiene que ejecutarse de vez en cuando como un cron y luego publicar comentarios y respuestas usando la API de Discourse. ¿Qué piensas?
Tengo algunas ideas para casos de uso de tales funciones. Me doy cuenta de que esto se está desviando del tema del OP, pero también parece ser el tema donde todos los interesados en integrar un bot similar a GPT3 están visitando. Si te animas a iniciar otro tema (público o privado), entonces habrá un solo lugar donde se recopilarán las ideas de la comunidad.
Descubrí lo que haría el bot, pero no tiene que ser un plugin real para Discourse. Solo tiene que ejecutarse de vez en cuando como un cron, y luego publicar comentarios y respuestas usando la API de Discourse. ¿Qué opinas?
Eso ciertamente tiene sentido. Sin embargo, personalmente, solo querría crear herramientas de IA de código abierto. Y, dado que el propio Discourse planea crear una herramienta, preferiría ayudarles a ellos en su lugar.
Propuesta de un Bot de Respuestas con Categorización Programada y Ajuste Fino para Foros de Discourse
Introducción: Los foros de Discourse dependen de la participación y las contribuciones de los usuarios, y un aspecto crucial de esto es la capacidad de obtener respuestas oportunas y precisas a las preguntas. Sin embargo, a veces puede pasar un tiempo hasta obtener una respuesta, lo que desanima a los usuarios a seguir participando en la conversación. Para abordar esto, proponemos un bot que pueda responder automáticamente a las preguntas después de un período de tiempo específico para fomentar la participación de la comunidad. Además, el bot asignará llamadas programadas para categorizar hilos existentes y construir su propio conjunto de datos de ajuste fino, que se puede actualizar de vez en cuando.
Objetivos: Los objetivos principales del bot de respuestas con categorización programada y ajuste fino para foros de Discourse son:
Fomentar la participación de la comunidad proporcionando respuestas oportunas y precisas a preguntas que de otro modo podrían quedar sin respuesta.
Automatizar la categorización de hilos existentes para garantizar que las preguntas estén correctamente etiquetadas y que los usuarios puedan encontrar fácilmente información relevante.
Construir un conjunto de datos de ajuste fino para que el bot mejore su rendimiento y precisión con el tiempo.
Solución Propuesta: Para lograr los objetivos descritos anteriormente, proponemos integrar un bot que pueda responder automáticamente a las preguntas después de un período de tiempo específico, asignar llamadas programadas para categorizar hilos existentes y construir su conjunto de datos de ajuste fino. El bot estará diseñado para analizar la entrada del usuario, comprender el contexto de la conversación y generar respuestas apropiadas basadas en reglas predefinidas y modelos de aprendizaje automático.
El bot utilizará técnicas de procesamiento del lenguaje natural (PLN) para analizar la entrada del usuario y generar respuestas relevantes para la conversación. Se entrenará para comprender el contexto de la pregunta, el tema que se está discutiendo y las interacciones previas del usuario para proporcionar respuestas precisas y útiles. El bot solo responderá a preguntas que no hayan sido respondidas dentro de un período de tiempo específico o cuando sea invocado directamente por un nombre de usuario.
Además de responder preguntas, el bot asignará llamadas programadas para categorizar hilos existentes. Analizará el contenido y las etiquetas del hilo para garantizar que las preguntas estén correctamente etiquetadas y organizadas para una fácil navegación. El bot también construirá su conjunto de datos de ajuste fino registrando y categorizando las consultas y respuestas de los usuarios. Este conjunto de datos se utilizará para entrenar y mejorar el rendimiento del bot con el tiempo.
Beneficios: Los beneficios de integrar un bot de respuestas con categorización programada y ajuste fino para foros de Discourse son numerosos, que incluyen:
Fomentar la participación de la comunidad: el bot proporcionará respuestas oportunas y precisas a las preguntas, lo que animará a los usuarios a seguir participando en la conversación.
Mejora de la categorización de hilos: el bot automatizará la categorización de hilos, asegurando que las preguntas estén correctamente etiquetadas y organizadas para una fácil navegación.
Mejora de la precisión y el rendimiento: el conjunto de datos de ajuste fino del bot se utilizará para entrenar y mejorar su rendimiento con el tiempo.
Reducción de la carga de trabajo para los moderadores humanos: el bot reducirá la carga de trabajo de los moderadores humanos al automatizar la categorización de hilos y responder preguntas que de otro modo quedarían sin respuesta.
Conclusión: La integración de un bot de respuestas con categorización programada y ajuste fino para foros de Discourse es una inversión valiosa que puede ayudar a fomentar la participación de la comunidad, automatizar las tareas de categorización y mejorar la precisión y el rendimiento del bot con el tiempo. Recomendamos explorar los modelos de PLN y aprendizaje automático disponibles para seleccionar el que mejor se adapte a las necesidades del foro de Discourse. El proceso de integración debe planificarse y ejecutarse cuidadosamente, con pruebas y capacitación adecuadas para garantizar que el bot funcione según lo previsto.
Este es un gran comienzo, pero desafortunadamente, como el OP, todavía no logra lo que dije que estaba buscando al principio. Sin embargo, después de haber estado mirando esta área durante muchos años, a menos que gane la lotería, no obtendré exactamente lo que quiero tratando de pagarlo yo mismo. Para reiterar, necesito un bot que no solo pueda hacer lo que describes anteriormente, sino que también tenga una memoria persistente de discusiones anteriores con individuos, al igual que un humano. Dado que no obtendré exactamente lo que quiero en el corto plazo, pero Discourse en sí + la propuesta en desarrollo para un Bot de IA de Discourse haría MUCHO de lo que quiero, ¿tal vez debería poner todos mis esfuerzos en ayudar tanto como pueda con ese proyecto mientras continúo investigando memorias persistentes usando Teoría de Grafos y otras cosas, que podrían agregarse más tarde?
Si la implementación/propuestas de Discourse no satisfacen tus necesidades y estás dispuesto a financiar el desarrollo de software de IA de código abierto (Apache-2.0, que Discourse podría luego reutilizar libremente), estaré más que feliz de configurar para ti un bot de IA para Discourse que tenga memoria.
Todo aquí dependerá del modelo. Veo mucho interés general, pero nadie ha sugerido qué modelo usar y nadie ha demostrado que el modelo pueda hacer algo remotamente útil.
Incluso obtener cosas buenas de OPT es difícil y Facebook añadió una buena cantidad de parámetros. Mi preocupación general aquí (también para la industria en general) es que en el espacio abierto no hay nada remotamente cercano a GPT 3 devinci, y GPT 4 está en el horizonte y hará que sea aún más difícil competir.
En la siguiente publicación anterior, se detallan tanto un modelo como su utilidad:
El proceso es Supabase + OpenAI GPT API. En este momento, GPT 3.5 + OpenAI embeddings es suficiente para lograr muchas de las tareas deseadas hoy en día de un bot de Discourse.
La API de GPT no es de código abierto. Pero es una API. Y cuando un modelo de código abierto se ponga al día (como https://github.com/LAION-AI/Open-Assistant), se puede sustituir en su lugar.
Ciertamente estoy de acuerdo. Es por eso que, por ahora, se utilizaría GPT 3.5 internamente hasta que haya una mejor alternativa disponible.
Mi gran preocupación aquí es la atribución, especialmente cuando un corpus es enorme como un foro de Discourse y gran parte de los datos utilizados para entrenar al bot pueden estar desactualizados.
Existen algunos problemas fundamentales importantes con este enfoque de ClippyGPT. No se puede reemplazar la búsqueda con algo que no proporcione enlaces al contenido. Entrenar esto también sería una tarea monstruosa.
Yo también estoy en la zona horaria de Sídney (Wagga Wagga). Mi dirección de correo electrónico es me@simonbiggs.net. ¿Organizamos una hora para hacer una videollamada?
Mi plugin puede usar GPT3 (por defecto: “text-davinci-003”, pero puedes elegir el modelo) para resumir Temas:
Lo he probado (incluso en Producción) y estoy bastante impresionado con los resultados hasta ahora. Me atrevería a decir que a veces es “sublime”.
Sin embargo, aunque a menudo devuelve resúmenes relevantes, sintácticamente correctos y convincentes, es propenso a imprecisiones fácticas que pueden ser muy engañosas y mermar su utilidad. ¡Mucho potencial aquí!
Ten en cuenta que el plugin todavía es muy experimental, pero ahora parece estable. Los resultados variarán, pero hay varias configuraciones de calidad de vida para mejorar tus resultados, incluida una mecánica de voto negativo con un ajuste de umbral que indicará al sistema que recupere un nuevo resumen del LLM.
ChatGPT no tiene soporte para fine-tuning (ni tiene una API para ello a día de hoy).
Creo que sería interesante entrenar un modelo basado en GPT (ya sea fine-tuning de GPT-3 o usar algo más) en un corpus de un sitio de Discourse para ver qué tan bien se desempeña el capitán ensalada de palabras una vez entrenado con los datos y enseñado a responder. Con la advertencia clara de que “basura entra, basura sale”.
Ciertamente ocurrirán experimentos, y los modelos GPT mentirosos y excesivamente confiados mejorarán con el tiempo (tanto debido a mejores datos como a algoritmos de mitigación que de alguna manera verifican los hechos).
La publicación de Richard es ciertamente interesante, pero ChatGPT aún no está listo para la tarea: