Refinamientos en la búsqueda que se están probando en meta

sam · 6 Febrero, 2023 06:05

Recientemente, debido a comentarios internos, decidimos priorizar una ronda de mejoras en nuestro algoritmo de búsqueda.

Estos cambios ahora se han implementado en todos los sitios como parte de Discourse 3.1.0.beta3. Después de actualizar, su sitio comenzará automáticamente a reindexar todo su contenido para la búsqueda.

Hay dos nuevas configuraciones de sitio como parte de esto, pero se han establecido en valores que hemos encontrado que funcionan bien en nuestras pruebas aquí en meta, por lo que no esperamos que la mayoría de los sitios tengan ninguna razón para cambiarlas.

Priorizar la coincidencia de término completo en el título sobre la coincidencia parcial

Discourse realiza un stem + coincidencia de prefijo al buscar. Esto a veces puede llevar a resultados muy sorprendentes.

Por ejemplo: redis se deriva a redi, por lo que una búsqueda de redis puede encontrar todas las palabras que comienzan con redi, como redirect y más.

Se agregó una nueva configuración de sitio oculta: prioritize_exact_search_title_match, que ahora está habilitada por defecto.

Antes:

Después:

Esto significa que si recuerdas el título y lo escribes, es mucho más probable que encuentres el título.

Reducción de la duplicación máxima del índice

Nuestro algoritmo de clasificación clasifica las publicaciones que tienen múltiples coincidencias con un término más alto que las publicaciones que solo contienen el término una vez. Esto significa que puedes “hacer trampa” en la búsqueda simplemente repitiendo una palabra muchas veces. Cuanto más escribas la palabra, más alto flotará en la parte superior de la búsqueda.

Se agregó una nueva configuración de sitio oculta SiteSetting.max_duplicate_search_index_terms, que por defecto es 6.

Una vez que esto se aplique, significa que si escribes sam, 6 veces o 60 veces en una publicación, seguirá clasificándose igual. Pone un límite a la bonificación que puedes dar a los resultados.

Este cambio también tiene un impacto positivo en el rendimiento, dado que el índice de búsqueda se vuelve un poco más pequeño.

Correcciones de errores varios

Parte del trabajo consistió en examinar casos de búsqueda patológicos.

Anteriormente, reducíamos la prioridad de los temas cerrados, pero olvidamos los temas archivados. Esto ahora está corregido.
Anteriormente, dependíamos demasiado de las coincidencias de prefijo para las búsquedas de “dominio”. Lo que significa que la palabra happy no encontraría https://happy.com ya que happy se deriva a happi y la coincidencia de prefijo falla. Esto fue corregido.

Trabajo futuro

Planeamos experimentar con la búsqueda “difusa” para la autocompletación de menciones. (permitir omitir una letra, por ejemplo)
Planeamos investigar la despriorización de términos duplicados en los títulos. Actualmente, el tema cerrado hola adiós hola se clasifica más alto que el tema abierto hola mundo
PageRank… actualmente no tomamos en cuenta el número de enlaces entrantes e internos al clasificar los resultados. Esto significa que a veces temas increíblemente bien enlazados pueden clasificarse más bajo que un tema raro que no está enlazado desde ningún lado. Sería bueno tener esto en cuenta en nuestro algoritmo de clasificación.
Tenemos una iniciativa abierta que investiga las integraciones de IA, es posible que podamos obtener inspiración de herramientas similares a GPT.

¿Qué puedes hacer para ayudar?

¿Estás notando algún mal resultado en meta? Si es así, por favor incluye el término que buscaste explicando por qué los resultados son deficientes.

¿Cómo te parecen los cambios (neutral/mejor/peor)?

Jagster · 6 Febrero, 2023 08:18

Solo para estar seguro… Si actualizo/mejora mi configuración, ¿encontraré esas dos configuraciones? Sé cómo encontrar las ocultas, eso no es un problema, pero ¿son solo de Meta en este momento? Para mí es más fácil probarlo en mis círculos que aquí

sam · 6 Febrero, 2023 08:23

Sí, pero también necesitas ejecutar rake search:reindex

volanar · 6 Febrero, 2023 08:34

¿Has pensado en mejorar la búsqueda usando meilisearch? Esto requiere muy pocos recursos y se puede incluir en la compilación de docker.

mcwumbly · 26 Abril, 2023 17:56

7 publicaciones se dividieron en un nuevo tema: Priorizar temas cerrados o resueltos en la búsqueda

Falco · 6 Febrero, 2023 14:59

Hemos comenzado experimentos en esta área por

Los primeros experimentos se limitan a la búsqueda de usuarios/grupos, pero si todo va bien, se puede ampliar aún más.

sam · 7 Febrero, 2023 06:31

Hemos considerado varias integraciones, incluidas sphinx, melli, elastic, solr/lucene, pero tienen un costo. Alojar otro proceso para ejecutar la indexación, arriesgarse a tener índices desactualizados, la complejidad… etc., nada de eso es gratis.

Me gustaría ver cuántos resultados obtenemos de PG antes de explorar otras opciones y mantenerlas como último recurso.

Problema muy interesante, sí, están (y siempre han estado) despriorizados. Creo que como mínimo podemos considerar agregar una configuración del sitio a discourse-solved para permitir a los administradores decidir qué hacer en estos casos (priorizar/despriorizar/neutral, etc.).

volanar · 7 Febrero, 2023 06:59

Desafortunadamente, postgres no está adaptado como motor de búsqueda. Y meilisearch tiene un consumo de memoria fantásticamente bajo y posibilidades de búsqueda ilimitadas. La sobrecarga para el servidor en comparación con ruby será simplemente invisible.

sam · 7 Febrero, 2023 07:16

Este no es un problema trivial. Nuestra búsqueda contiene una enorme cantidad de dimensiones y tiene muchos parámetros, se une directamente a las tablas de postgres.

Con un proveedor de búsqueda externo, debemos preocuparnos por la “sincronización”.

Un tema se cierra en Discourse → notificar al motor
Se elimina una publicación → notificar al motor
Se da un “me gusta” → notificar al motor
Un tema se divide o se fusiona → notificar al motor

La lista continúa, incluida la creación de múltiples índices (usuarios/publicaciones/temas/categorías)

Dicho esto, dada la inversión adecuada, esto no es necesariamente insuperable, pero es una tarea enorme y no hay una prueba de concepto que muestre cuán mejor sería. Es bueno que melli tenga un clasificador de errores tipográficos y muchas otras características, no hay discusión al respecto. Pero integrarlo no es gratis en absoluto.

Como estimación aproximada, creo que hay alrededor de 3 meses de trabajo para construir una integración sólida y robusta en mellisearch. Quizás incluso 6 meses si diseñáramos Discourse de tal manera que el motor de búsqueda sea “enchufable”.

Tenga en cuenta que sí admitimos la integración de Algolia aquí: https://discourse.algolia.com/ no es exactamente sólido como una roca, y puede ver que toda la búsqueda avanzada se omite de la implementación.

volanar · 7 Febrero, 2023 07:23

Apuesto a que con una comunidad tan grande de discursos como discourse, puede ser mucho más rápido, no más de tres meses.

Jagster · 19 Febrero, 2023 20:53

Después de un tiempo, les pregunté a los usuarios más activos qué pensaban (~~pensaron~~ ) sobre la búsqueda, sin haberles dicho antes que le habíamos dado un boost.

Todos dijeron exactamente lo mismo: no lo habían pensado, pero porque se lo pregunté, se dieron cuenta de que ahora encontraban resultados relevantes mucho más fácil, en la mayoría de los casos al instante.

Una parte de Discourse actúa como sistema de comentarios de WordPress. No, no obtengo más comentarios (nada está tan sobrevalorado como los comentarios en los blogs), pero ha mostrado la existencia (¿se escribe así?) del foro. Hoy en día tengo un puñado de usuarios que usan Discourse como un motor de búsqueda. No comentan, pero buscan lo que necesitan en WordPress a través de los temas de Discourse y luego vuelven al blog. Claro, el sistema de etiquetas también ayuda mucho. Y WordPress carece de ambas cosas: una búsqueda efectiva y un sistema de etiquetado funcional.

No sé si debería publicar esto en Community Building > Praise en su lugar, pero quería decir simplemente que estoy bastante contento con cómo funciona esta nueva búsqueda mejorada.

sam · 19 Febrero, 2023 23:05

¡Vaya, gracias, esto ciertamente me hace sentir muy bien! Tenemos una solicitud de extracción en proceso y deberíamos implementar los cambios a nivel mundial muy pronto.

mattdm · 20 Marzo, 2023 19:24

Disculpen si soy obtuso: ¿debería esto estar activo en sitios alojados (con el último despliegue)? El anuncio de lanzamiento apunta aquí, pero esto habla de una configuración oculta. ¿Está activada esa configuración oculta?

mcwumbly · 20 Marzo, 2023 20:01

No necesitas hacer nada:

Actualizaré la publicación original con una nota.

Luke_Cousins · 31 Marzo, 2023 18:15

Gracias por la fantástica actualización. Para nosotros, poder definir sinónimos de búsqueda sería una gran mejora Gracias.

sam · 4 Abril, 2023 04:44

9 publicaciones se dividieron en un nuevo tema: ¿Puedo excluir nombres de usuario de la búsqueda

dsims · 5 Abril, 2023 21:02

No estoy seguro de si este fue un problema antes, pero noté que muchas publicaciones creadas por el sistema aparecen en los resultados de búsqueda. Quizás un caso extremo más notable aquí en meta, pero no esperaría que los mensajes del sistema fueran relevantes para la búsqueda.

Resultado de ejemplo al buscar términos como “cerrado automáticamente”:

mattdm · 5 Abril, 2023 23:08

No puedo reproducirlo aquí.

Moin · 6 Abril, 2023 03:45

Puedo reproducir eso; si los ordenas por la última publicación en lugar de por relevancia, hay muchos mensajes del sistema en los resultados.

mattdm · 6 Abril, 2023 05:32

Ah, sí, lo veo entonces. No es todo, pero es más que razonable. Parece que estos mensajes deberían excluirse de la búsqueda.

Tema		Respuestas	Vistas
Discourse needs better search Feature search	39	1965	10 Julio 2025
Search results should prioritize first post in topic when title matches search term Feature	41	3146	18 Febrero 2022
Prioritizing closed or solved topics in search Feature search	19	1229	3 Mayo 2023
Should search prioritize recent topics over older topics? Feature	53	6079	22 Agosto 2014
Feedback on our instant search experiment Feature search , feedback	33	1526	7 Agosto 2024