Recientemente, debido a comentarios internos, decidimos priorizar una ronda de mejoras en nuestro algoritmo de búsqueda.
Estos cambios ahora se han implementado en todos los sitios como parte de Discourse 3.1.0.beta3. Después de actualizar, su sitio comenzará automáticamente a reindexar todo su contenido para la búsqueda.
Hay dos nuevas configuraciones de sitio como parte de esto, pero se han establecido en valores que hemos encontrado que funcionan bien en nuestras pruebas aquí en meta, por lo que no esperamos que la mayoría de los sitios tengan ninguna razón para cambiarlas.
Priorizar la coincidencia de término completo en el título sobre la coincidencia parcial
Discourse realiza un stem + coincidencia de prefijo al buscar. Esto a veces puede llevar a resultados muy sorprendentes.
Por ejemplo: redis se deriva a redi, por lo que una búsqueda de redis puede encontrar todas las palabras que comienzan con redi, como redirect y más.
Se agregó una nueva configuración de sitio oculta: prioritize_exact_search_title_match, que ahora está habilitada por defecto.
Antes:
Después:
Esto significa que si recuerdas el título y lo escribes, es mucho más probable que encuentres el título.
Reducción de la duplicación máxima del índice
Nuestro algoritmo de clasificación clasifica las publicaciones que tienen múltiples coincidencias con un término más alto que las publicaciones que solo contienen el término una vez. Esto significa que puedes “hacer trampa” en la búsqueda simplemente repitiendo una palabra muchas veces. Cuanto más escribas la palabra, más alto flotará en la parte superior de la búsqueda.
Se agregó una nueva configuración de sitio oculta SiteSetting.max_duplicate_search_index_terms, que por defecto es 6.
Una vez que esto se aplique, significa que si escribes sam, 6 veces o 60 veces en una publicación, seguirá clasificándose igual. Pone un límite a la bonificación que puedes dar a los resultados.
Este cambio también tiene un impacto positivo en el rendimiento, dado que el índice de búsqueda se vuelve un poco más pequeño.
Correcciones de errores varios
Parte del trabajo consistió en examinar casos de búsqueda patológicos.
-
Anteriormente, reducíamos la prioridad de los temas cerrados, pero olvidamos los temas archivados. Esto ahora está corregido.
-
Anteriormente, dependíamos demasiado de las coincidencias de prefijo para las búsquedas de “dominio”. Lo que significa que la palabra
happyno encontraríahttps://happy.comya quehappyse deriva ahappiy la coincidencia de prefijo falla. Esto fue corregido.
Trabajo futuro
-
Planeamos experimentar con la búsqueda “difusa” para la autocompletación de menciones. (permitir omitir una letra, por ejemplo)
-
Planeamos investigar la despriorización de términos duplicados en los títulos. Actualmente, el tema cerrado
hola adiós holase clasifica más alto que el tema abiertohola mundo -
PageRank… actualmente no tomamos en cuenta el número de enlaces entrantes e internos al clasificar los resultados. Esto significa que a veces temas increíblemente bien enlazados pueden clasificarse más bajo que un tema raro que no está enlazado desde ningún lado. Sería bueno tener esto en cuenta en nuestro algoritmo de clasificación.
-
Tenemos una iniciativa abierta que investiga las integraciones de IA, es posible que podamos obtener inspiración de herramientas similares a GPT.
¿Qué puedes hacer para ayudar?
¿Estás notando algún mal resultado en meta? Si es así, por favor incluye el término que buscaste explicando por qué los resultados son deficientes.
¿Cómo te parecen los cambios (neutral/mejor/peor)?


