Discourse necesita una mejor búsqueda

Un posible enfoque @Falco podría ser un enfoque inverso de lo que hace nuestro enfoque actual.

Para cada tema, intenta extraer/crear unas 20 palabras clave y superponlas a las palabras clave existentes.

Me pregunto si eso ayuda.

3 Me gusta

Nuestra búsqueda de relevancia no tiene en cuenta las vistas ni el PageRank. Y para añadir complicaciones, las vistas de todos los tiempos pueden sesgar mucho las cosas, por lo que probablemente necesitaríamos vistas por año o algo así para corregir eso.

Pero… con PageRank / contabilizando recuentos de vistas / me gusta, es posible que podamos idear un algoritmo de relevancia mucho mejor.

Esto es material complejo, una empresa de billones de dólares se construyó sobre estas ideas y otra empresa de billones de dólares no tiene una forma fácil de ponerse al día.

10 Me gusta

Ahí lo arreglé… en el #1 ahora.

Discutí este problema con @tgxworld y @JammyDodger en el pasado, nos horneamos un pastel muy malo aquí.

La solución simple es

Ir a través de cada tema de Plugin y añadir “Plugin” al final.

Plugin de Publicidad de Discourse
Plugin de Chat de Discourse
y así sucesivamente…

El título coincide con “ganar”, así que por ejemplo

  • Publicidad en la categoría Plugin perderá ante Pregunta sobre el Plugin de Publicidad de Discourse en la categoría aleatoria.

Podríamos “inflar” nuestro índice de títulos añadiendo la categoría y las etiquetas - creo que esto es lo que Google hace de todos modos.

Así que en lugar de indexar:

primera prioridad “Discourse Advertising”
segunda “plugin”
tercera prioridad “content”

Podríamos indexar

primera prioridad “Discourse Advertising - plugin tag1 tag2”

Por supuesto, una solución alternativa es buscar:

#plugin chat

vs


Para que lo sepas… también podría arreglar todos los plugins oficiales ahora, solo me llevará unos minutos.

4 Me gusta

¿Qué tal si se tiene en cuenta el número de enlaces al tema?

2 Me gusta

Sí, ese es el PageRank, lo mencioné

Tantas compensaciones, ¿debería una coincidencia exacta del título perder ante un PageRank alto?

2 Me gusta

No. Los títulos exactos son los que a menudo debo buscar, pero soy bastante especial. Cuando busco un enlace de “por qué no hiciste una búsqueda”, principalmente busco cosas que sé que existen (a un paso de la instalación estándar, durante muchos meses me desconcertó que “directo” ya no encontrara Configurar el correo electrónico entrante de entrega directa para sitios autoalojados con Mail-Receiver, pero recientemente lo renombré para que “receptor de correo” funcione)

Ah. Ahora veo que dijiste eso.

Para las cosas que realmente busco y que no sé que estoy buscando, lo más reciente suele ser lo mejor.

Para que lo sepas, en mis propios sitios (en gran medida solo para mí), con relativamente pocos temas y publicaciones, ¡creo que la búsqueda funciona bastante bien!

4 Me gusta

Esta es la manera, hay muchas herramientas de búsqueda para probar antes de perder demasiado esfuerzo en la interna. No conozco ningún sitio con una búsqueda interna que no reciba esta queja. Incluso Reddit, que es uno de los sitios más grandes, es criticado por su búsqueda.

1 me gusta

Al correlacionar el comportamiento del usuario durante las búsquedas y la lectura (y posiblemente a través de consultas, como hace Google Maps, por ejemplo), Discourse podría generar internamente conocimiento sobre los resultados anticipados de las consultas.

También me pregunto si la IA podría ayudar a dirigir una conversación hacia los resultados deseados. Dicho diálogo podría comenzar con un botón que diga: “No estoy satisfecho con los resultados”. El papel de la IA sería entonces hacer preguntas cuyas respuestas reduzcan el rango de resultados o los prioricen adecuadamente.

Un plugin de Typesense suena increíble.

¡Buen tema! La búsqueda en foros es algo realmente complicado, y la solución de usar Google tiende a aparecer con demasiada frecuencia para mi gusto.

Estaría de acuerdo. No quieres que los temas antiguos dominen tus resultados de búsqueda.
A juzgar por mis propias expectativas de búsqueda, querría que los mejores resultados fueran hilos que fueran recientes y activos, y que coincidieran bien en términos de título y categoría. E incluso después de eso, preferiría que la actualidad tuviera un impacto notable, porque a menudo busco cosas que recuerdo vagamente.

Desafortunadamente, también es cierto. Personalmente, ni siquiera estoy seguro de cuánto contribuirían los enlaces a la relevancia (aunque probablemente serían un factor), porque en los foros en los que participo activamente, pero que no son foros de soporte o técnicos de algún tipo, los enlaces son relativamente raros.
Así que tiendo a considerar la actualidad y la actividad, es decir, el número de vistas, me gusta/reacciones, respuestas, dentro de un pasado no muy lejano como más importantes (no sé si esto también se tiene en cuenta en la implementación actual de la búsqueda o no).

3 Me gusta

Creo que vale la pena ver el algoritmo que usa reddit para su puntuación “hot”:

math - Where do mathematical algorithms for Reddit’s ranking, as an example, come from? - Stack Overflow

Eso es algo así como

image

1 me gusta

:sob: :sob: :sob: :sob:

5 Me gusta

De acuerdo. Para que lo sepas, subscriptions #plugin funciona mejor.

Sí. No me hagas pensar.

La consulta en el OP arroja los mismos temas en el mismo orden que hace un año (con la excepción de que este mismo tema contamina los resultados de la búsqueda…)

Me preguntaba, ¿esto dio algún resultado?

4 Me gusta

He empezado a depender demasiado de Google cuando no encuentro algo aquí, y no me gusta eso. :cry: Dicho esto. Estoy seguro de que el equipo encontrará una manera de mejorar la búsqueda tarde o temprano.

6 Me gusta

Aprendimos bastante del experimento, pero nos estaba consumiendo mucho tiempo y hemos cambiado a otras prioridades.

6 Me gusta

¿Puedo saber el estado actual del experimento? ¿Debería continuar o es necesario empezar de cero?

No tengo mucha experiencia revisando el código para identificar cambios que rompan la compatibilidad, así que un resumen sencillo sería suficiente para que lo entienda :slight_smile:

Centralizar las búsquedas debería dar a Discourse más exposición en blogs y sitios web similares con más servicios en línea.

Ese es nuestro caso de uso inicial; creo que podría aportar valor ofrecer una puerta de entrada para discutir artículos de blog directamente en la barra de búsqueda.

1 me gusta

El experimento fue retirado, podría reaparecer, ciertamente seguimos interesados en mejorar la búsqueda.

1 me gusta

Eso es bueno saberlo, ¡gracias!

Entiendo que ofrecer una búsqueda simplificada en múltiples aplicaciones (wikis, blogs, documentos, foros) es obligatorio para aprovechar todo el potencial de la nueva tecnología y los cambios radicales que estamos experimentando.

Sí soportamos Algolia en un plugin de Algolia, así que podrías apoyarte en eso.

1 me gusta