Me pregunto si, con los avances recientes en los LLM, sería posible hojear las publicaciones y el historial de lectura de un usuario para ofrecerle un feed de recomendaciones.
Esta sería una gran característica para nuestro caso de uso centrado en preguntas y respuestas. Tenemos muchas categorías distintas, usuarios (colegas) muy activos y mucha información extremadamente útil que simplemente no verán. Una buena lista de recomendaciones ayudaría a algunos de nuestros usuarios a anticiparse a los problemas que intentan resolver.
Supongo que nuestro ideal sería una lista compuesta por errores comunes, significativos y candentes de los que la gente habla, relacionados con las herramientas y conversaciones en las que el usuario ya está demostrando interés.
¿Te importaría compartir un enlace al sitio si es público?
Como alguien que ha estado utilizando las funciones de IA de Discourse, muchas antes de que se hicieran públicas, estoy ansioso por aprender más sobre tu sitio. Comprender los detalles específicos que has señalado me permitirá hacer recomendaciones más informadas para la IA de Discourse, teniendo en cuenta los aspectos únicos de tu plataforma.
Me encantaría, pero lamentablemente es una gran instancia interna corporativa
Quizás pueda darte una idea de lo que estamos haciendo.
Antecedentes
Esencialmente, es como un Stackoverflow interno donde compartimos problemas específicos de la empresa y la industria como “¿cómo diablos configuro el proxy para esto?” o “¿no encuentro ningún resultado para Bug123 en Google, alguien más lo ha resuelto?”.
Nuestras categorías son específicas de la herramienta, como:
Kubernetes
Gitlab
Cosas defectuosas de IBM con la peor interfaz de usuario que jamás hayas visto
¿Cómo podría ser útil una lista de recomendaciones?
Actualmente, si leo/respondo a un tema en la Categoría Gitlab que habla sobre la integración con otras herramientas, como Kubernetes, no recibo notificaciones sobre temas relacionados. Por lo tanto, si hay una publicación muy útil en la Categoría Kubernetes, es posible que no la vea hasta muy tarde. Tengo que encontrarla yo mismo o suscribirme a las notificaciones correctas.
La mayoría de nuestros usuarios no tendrán una buena configuración de notificaciones:
Están bajo presión para obtener resultados.
No pasan suficiente tiempo en la plataforma para sacar el máximo provecho de su configuración de notificaciones.
Una lista de recomendaciones proporcionaría información potencialmente útil, bajo demanda, con un solo clic. Esencialmente, “basado en tus intereses recientes, aquí tienes algunos temas que podrían ser útiles”. Podría basarse en el historial de búsqueda del usuario, temas populares, palabras clave comunes en los temas en los que participa, etc. Por lo tanto, si nunca visitan la Categoría de Cosas defectuosas de IBM, nada de esa Categoría se recomendará, a menos que toque algo en lo que ya tengan un gran interés, por ejemplo, Gitlab.
Proporciono un resumen de IA “daily buzz” en la parte superior de este sitio que se actualiza cada 12 horas y se basa en 2 días de publicaciones.
La solución es propietaria y no está en un plugin público, pero demuestra el concepto.
¡Y sí, es propenso a errores!
He estado queriendo que vincule contenido … ACTUALIZACIÓN: hecho, solo necesitaba GPT 4 Turbo y algo de ingeniería de prompts. GPT 3.5 no puede manejar ese nivel de dirección.
Gracias, no lo había visto. Podría resultar fructífero si las cosas cambian para nosotros, pero desafortunadamente no parece cumplir con nuestras restricciones actuales (¡que olvidé mencionar antes! ).
Restricciones
No se puede usar chat
No se pueden usar mensajes privados
No se puede depender de la IA para generar respuestas y proporcionarlas silenciosamente a nuestros desarrolladores: fabricamos software de seguridad crítica
Estas restricciones son esencialmente la razón por la que una lista de temas recomendados sería una buena solución para nosotros: no se genera contenido, no se usa el chat, no se usan los mensajes privados.
Esta sería una forma interesante de proporcionar un resumen diario. Como dices, los hipervínculos serían sin duda una gran característica. ¿Estás pensando en personalizarlo para el conjunto de intereses distinto del usuario? ¿Qué hizo que este enfoque fuera atractivo en lugar de depender del resumen diario existente?
Sospecho que esta es la parte verdaderamente desafiante de esta solicitud, pero también donde reside una gran cantidad de valor.
La mayoría de las plataformas de alojamiento de contenido tienen alguna forma de sistema de recomendación personalizado, me sorprendería que Discourse no se dirigiera hacia allí en algún momento. Es discutiblemente más factible que para plataformas como Spotify/Youtube, ya que todo está basado en texto, eliminando una capa de error entre la traducción de imagen/sonido a objeto/texto/concepto.
Piensa más allá de lo convencional con la solicitud en la primera publicación. Si bien tienes muchas restricciones válidas que deben cumplirse, eso no significa que no existan también soluciones potencialmente mejores.
Nota al margen sobre Temas Relacionados, de los cuales honestamente puedo decir que he visto unos miles en los últimos días y he notado esto
Algo a tener en cuenta.
Al revisar muchas publicaciones en Temas Relacionados para un sitio en inglés (OpenAI), empiezo a notar que los temas en español tienden a agruparse y sospecho que si se tradujeran primero al inglés, cada publicación tendría un vector diferente y, por lo tanto, se agruparía con otras publicaciones.
List key stats like top users and counts of posts / topics
List 10 or so interesting new topics with a brief summary of activity that happened during the day
List 10 or so interesting older topics that got significant activity during the day
List a summary of activity by the @team group linking to topics they made inline.
Sourcing: ALWAYS Back statements with links to forum discussions.
Markdown Usage: Enhance readability with bold, italic, and > quotes and links.
Linking: Use https://meta.discourse.org/t/-/TOPIC_ID/POST_NUMBER for direct references.
User Mentions: Reference users with @USERNAME
Add many topic links: strive to link to at least 30 topics in the report. Topic Id is meaningless to end users if you need to throw in a link use ref or better still just embed it into the sentence
Categories and tags: use the format #TAG and #CATEGORY to denote tags and categories
Bug topics are super important to me, make sure to prioritize them and also feel free to try to highlight any miscategorized bugs if you find any. DO NOT mention if stuff is correctly categorized.
When providing a topic summary, do so in paragraph form eg:
Experimental Admin Sidebar Navigation - @martin introduced an experimental admin sidebar navigation, sparking discussions about its design and functionality. Users like @packman and @Don provided feedback on missing entries and mobile display issues, which @martin acknowledged and is considering for future updates. Read more.
Recommended Topics List - @Tris20 suggested adding a list of recommended topics to the top menu, leveraging advancements in LLMs to tailor content to users’ interests. The conversation evolved with contributions from @EricGT, @merefield, and others, discussing the potential and challenges of personalized content recommendations. Read more.
Ten Years of Discourse - Users like @Judy_Hawkins and @Quercus shared their gratitude for various Discourse communities that have impacted their lives, celebrating the platform’s ten-year anniversary. Read more.
Locations Plugin - @Don reported an issue with the Locations plugin, which @merefield promptly responded to, indicating a willingness to investigate the problem. Read more.
Restricting Users from Editing Navigation Bar - @Yola sought help to restrict users from editing the navigation bar, and @JammyDodger clarified that the feature is designed for individual customization. @pfaffman and @LOCOSP provided CSS solutions to hide the edit button. Read more.
Upload File Bugs - @Vladimir_P encountered bugs when uploading files, which @JammyDodger and @blake addressed, leading to a fix being implemented. Read more.
Creating and Installing Plugins - @Gaurav_Kumar_Sandan inquired about creating and installing plugins on the home page, with @JammyDodger and @pfaffman providing guidance on theme components and plugin installation. Read more.
DiscoTOC - Automatic Table of Contents - Users like @digitaldominica and @Arkshine discussed issues with the DiscoTOC component, which were resolved following updates to Discourse. Read more.
Custom User Setting in a Plugin - @pirhoo sought advice on creating custom user fields from a plugin, with @merefield providing resources to assist in the process. Read more.
Billing Details Location - @Teresations needed help locating billing details for their Discourse hosted with Communiteq, which @awesomerobot and @RGJ assisted with, pointing to the control panel. Read more.
Interesting Older Topics with Significant Activity
Emoji Line-Height Adjustment Feedback - @sam and @tynaut discussed the impact of emoji line-height adjustments on user status styling, with @tynaut confirming a fix for chat and looking into a solution for posts/messages. Read more.
Using FILTER to Summarize Data - @JammyDodger shared a SQL query using the FILTER function to segment user data based on activity summary preferences, providing a detailed explanation of the query’s components. Read more.
Communication Style as Part of a User’s Profile - @Saif and @simon discussed the potential and concerns of implementing sentiment analysis on user profiles to assess communication style. Read more.
Enter to Newline, Shift+Enter to Submit Message in Chat - @meglio proposed a configuration change for chat input behavior, supported by users like @Jagster and @Moin, to make multi-paragraph messaging more user-friendly. Read more.
Can’t Approve a User’s First Post if It Has a Poll - @Firepup650 reported an issue where a user’s first post containing a poll could not be approved due to a permissions error. Read more.
Error Message When Uploading Logo - @spicerunner reported an error message when uploading a logo, which was resolved after an update. This topic was correctly categorized as a Bug. Read more.
Outbound Notification E-mails Failing - @managenet faced issues with outbound notification emails after attempting to change the attachment size limit. Read more.
Can’t Rebuild App Stuck Extracting One Layer - @LOCOSP encountered a problem with a Docker layer extraction during a rebuild, seeking advice on how to force a re-pull of the files. Read more.
Does Discourse Launcher / Docker Use the Local Postgresql and Redis Servers? - @dalu74 inquired about whether Discourse uses the host’s Postgresql and Redis installations, which was clarified by @hello-smile6. Read more.
Specifically you could unleash some of these automation reports to try to surface interesting content.
The fact you control the context size, amount of days the report spans and more lets you have extreme control here.
Warning though, this needs GPT-4 turbo to work well, Anthropic Claude is a large context window llm but the results it has produced failed to impress me.
Puede que ya lo sepas, pero también lo digo para otros, ya que puede que no sea tan obvio.
Si tienes acceso al bot Discourse AI que se encuentra en la esquina superior derecha
entonces, usando la personalidad de Forum Helper, también puedes probar diferentes instrucciones que podrían usarse con las custom instructions del Periodic report using AI. En otras palabras, puedes usar Forum Helper para prototipar rápidamente el informe.
Como alguien que tuvo el privilegio de ayudar con comentarios durante el desarrollo, puedo decirte que las custom instructions son importantes para obtener los resultados deseados. En el ejemplo dado anteriormente, puedo ver claramente que Sam añadió esto para tu variación de un informe basado en tu solicitud inicial.
Me encanta el aspecto, aunque no estoy seguro de entender completamente la funcionalidad. Parece que esto produce algo similar al Digest. Me gusta mucho este nuevo formato para esa información.
Lo que no pude ver en la respuesta es si esto puede proporcionar un resumen personalizado. ¿Me perdí algo? ¿Es posible generar esto por usuario, basándose en los intereses individuales del usuario?
Para concretar estas ideas, esto es aproximadamente lo que tenía en mente:
Identificar los intereses principales del usuario: (Ejecutar una vez) Escanear todos los temas y respuestas con los que el usuario ha interactuado (me gusta, responder, crear) en busca de palabras clave.
Identificar los intereses recientes del usuario: Escanear los temas y respuestas que el usuario ha leído este mes en busca de palabras clave.
Identificar los conceptos clave de los temas recientes: escanear todos los temas nuevos de esta semana.
La parte que más le gusta a la gente y que está impulsada por LLM es el simple resumen de 1 párrafo de los cambios en un tema de la fecha X a la Y.
En lugar de hacer que el LLM lea todo el corpus y cree un informe como este, podríamos simplemente mantener una “caché de fragmentos” donde, por ejemplo, almacenamos párrafos por tema:
ID del tema
Rango de fechas para el resumen
Resumen muy corto
2343
12-1 → 12-9
…
Con eso, podemos construir resúmenes personalizados por usuario. Básicamente, estamos dividiendo esto en múltiples problemas:
Identificar temas interesantes → programación tradicional (etiquetas / categorías observadas o quizás observación “de fondo” basada en la actividad - excluir lo ya leído)
Resumir temas → función impulsada por LLM
Esto tiene múltiples ventajas. Escala muy bien, los resúmenes pueden ser mucho más precisos porque la cantidad de contexto es mucho más limitada y hay menos riesgo de fuga de contexto y alucinación.
He estado reflexionando sobre una variación de esta idea. En lugar de pensar en temas relacionados por etiquetas o categorías, considérelos en función de su similitud semántica. Si bien no todos los temas semánticamente relacionados formarán una esfera de manera ordenada, es útil pensar en ellos de esa manera. Imagina una esfera que comienza como un solo tema; a medida que se agregan más temas, la esfera se expande, pero tiene un tamaño limitado después de un tiempo. Sin embargo, se pueden agregar más temas dentro de la esfera a medida que crece e incluso con el tiempo después de alcanzar su tamaño completo. Piensa en esto como un espectáculo de fuegos artificiales en el cielo, con explosiones rápidas que representan temas con diferentes similitudes semánticas que se agregan con el tiempo. Esta analogía me ayuda a comprender mejor el concepto. Estoy particularmente interesado en esas explosiones rápidas y aquellas que perduran y brillan durante mucho tiempo. Si uno también tuviera una representación visual de esto, sería bueno elegir centros semánticos y adaptar un párrafo sobre eso.
Este tema, al usar Mostrar publicación completa, muestra una imagen real de temas semánticamente relacionados.
EDITAR
Aquí hay una imagen visual que se acerca más a lo que estoy pensando.
Tengo que ser honesto y señalar que es la primera vez que oigo hablar de “el algoritmo”, pero sí, se alinea bastante con lo que estoy pensando. Tendré que investigarlo más a fondo, pero no espero discrepar con lo que señalas.
El algoritmo de Twitter se refiere al complejo conjunto de reglas y procesos matemáticos que la plataforma de redes sociales utiliza para determinar qué contenido se muestra a los usuarios en sus líneas de tiempo y feeds. Este algoritmo está diseñado para curar y personalizar el contenido que los usuarios ven en función de sus intereses, historial de interacciones y otros factores. El algoritmo de Twitter ha evolucionado a lo largo de los años, pero generalmente tiene como objetivo mostrar a los usuarios los tuits más relevantes y atractivos, al tiempo que promueve la interacción y la retención de usuarios en la plataforma.
Los componentes y factores clave que pueden influir en el algoritmo de Twitter incluyen:
Relevancia: El algoritmo considera la relevancia de un tuit para los intereses y preferencias de un usuario. Tiene en cuenta las cuentas que sigue un usuario, el contenido con el que interactúa (me gusta, retuits, respuestas) y las palabras clave y hashtags que utiliza en sus tuits.
Interacción: Los tuits que reciben más me gusta, retuits, respuestas y compartidos tienen más probabilidades de ser promocionados por el algoritmo. Una mayor interacción indica que un tuit resuena con los usuarios y se considera más valioso.
Recencia: Twitter a menudo prioriza los tuits recientes para mantener a los usuarios actualizados con la información y las tendencias más recientes. Sin embargo, también puede mostrar tuits más antiguos que siguen siendo relevantes y atractivos.
Personalización: El algoritmo crea una experiencia personalizada para cada usuario adaptando su feed a sus intereses y comportamientos específicos. Se adapta con el tiempo a medida que los usuarios interactúan con la plataforma.
Número de seguidores: El número de seguidores que tiene una cuenta también puede influir en la visibilidad de sus tuits. Las cuentas con más seguidores generalmente tienen más probabilidades de que sus tuits se muestren a una audiencia más amplia.
Tipo de medio: Los tuits con imágenes, videos u otros medios tienden a recibir una mayor interacción y pueden ser promocionados por el algoritmo.
Calidad y seguridad: El algoritmo de Twitter también tiene como objetivo promover contenido de alta calidad y seguro, al tiempo que reduce la visibilidad de spam, noticias falsas y contenido perjudicial.
Es importante tener en cuenta que Twitter actualiza y refina periódicamente su algoritmo para mejorar la experiencia del usuario y abordar las preocupaciones relacionadas con la propagación de desinformación y contenido perjudicial. Los usuarios también pueden tener cierto control sobre su línea de tiempo ajustando su configuración, silenciando cuentas o utilizando funciones de Twitter como Listas y la opción “Mostrar primero los mejores tuits” para personalizar aún más su feed.
Me encanta absolutamente esto. Se siente como una versión sin alertas de Observando, que es exactamente el tipo de cosa que estamos buscando. ¡Algo que realmente me impresiona es el poco esfuerzo cognitivo que siento al leer este formato! ¡Sinceramente, no puedo esperar a leer más de ellos!
¿Estoy en lo cierto al pensar que esto solo se ha probado en Meta hasta ahora? Tengo mucha curiosidad sobre cómo manejaría un foro técnico con información potencialmente más obtusa.