Améliorations de la recherche en cours de test sur meta

sam · Février 6, 2023, 6:05

Récemment, suite à des retours internes, nous avons décidé de prioriser une série d’améliorations de notre algorithme de recherche.

Ces changements ont maintenant été déployés sur tous les sites dans le cadre de Discourse 3.1.0.beta3. Après la mise à jour, votre site commencera automatiquement à réindexer tout votre contenu pour la recherche.

Deux nouveaux paramètres de site font partie de ces changements, mais ils ont été configurés avec des valeurs que nous avons trouvées efficaces lors de nos tests ici sur meta, nous ne nous attendons donc pas à ce que la plupart des sites aient une raison de les modifier.

Prioriser la correspondance exacte du terme dans le titre par rapport à la correspondance partielle

Discourse effectue une recherche par racine + correspondance de préfixe. Cela peut parfois conduire à des résultats très surprenants.

Par exemple : redis devient redi, donc une recherche pour redis peut trouver tous les mots qui commencent par redi, tels que redirect et plus encore.

Un nouveau paramètre de site caché a été ajouté : prioritize_exact_search_title_match, qui est maintenant activé par défaut.

Avant :

Après :

Cela signifie que si vous vous souvenez du titre et que vous le tapez, vous avez beaucoup plus de chances de trouver le titre.

Réduction de la duplication maximale d’index

Notre algorithme de classement classe les publications qui ont plusieurs correspondances pour un terme plus haut que les publications qui ne contiennent le terme qu’une seule fois. Cela signifie que vous pouvez “tricher” dans la recherche en répétant simplement un mot un grand nombre de fois. Plus vous tapez le mot, plus il remonte en haut des résultats de recherche.

Un nouveau paramètre de site caché SiteSetting.max_duplicate_search_index_terms a été ajouté, qui est par défaut à 6.

Une fois appliqué, cela signifie que si vous tapez “sam” 6 fois ou 60 fois dans une publication, elle sera toujours classée de la même manière. Cela met un plafond au bonus que vous pouvez accorder aux résultats.

Ce changement a également un impact positif sur les performances, étant donné que l’index de recherche devient un peu plus petit.

Corrections de bugs divers

Une partie du travail a consisté à examiner des cas de recherche pathologiques.

Auparavant, nous réduisions la priorité des sujets fermés, mais nous avions oublié les sujets archivés. Ceci est maintenant corrigé.
Auparavant, nous nous appuyions trop sur les correspondances de préfixes pour les recherches de “domaines”. Cela signifie que le mot happy ne trouvait pas https://happy.com car happy devient happi et la correspondance de préfixe échoue. Ceci a été corrigé.

Travaux futurs

Nous prévoyons d’expérimenter la recherche “floue” pour la complétion automatique des mentions. (permettre de sauter une lettre par exemple)
Nous prévoyons d’étudier la dé-priorisation des termes dupliqués dans les titres. Actuellement, le sujet fermé hello goodbye hello est classé plus haut que le sujet ouvert hello world.
PageRank… nous ne prenons actuellement pas en compte le nombre de liens internes entrants lors du classement des résultats. Cela signifie que parfois des sujets incroyablement bien liés peuvent être classés plus bas qu’un sujet rare qui n’est lié nulle part. Il serait souhaitable de prendre cela en compte dans notre algorithme de classement.
Nous avons une initiative ouverte examinant les intégrations d’IA, nous pourrions tirer une certaine inspiration d’outils similaires à GPT.

Que pouvez-vous faire pour aider ?

Remarquez-vous des résultats médiocres sur meta ? Si oui, veuillez inclure le terme que vous avez recherché en expliquant pourquoi les résultats sont médiocres.

Comment trouvez-vous les changements (neutres/meilleurs/pires ?)

Jagster · Février 6, 2023, 8:18

Juste pour être sûr… Si je mets à jour/améliore ma configuration, trouverai-je ces deux paramètres ? Je sais comment trouver ceux qui sont cachés, ce n’est pas un problème — mais sont-ils réservés à Meta pour le moment ? Pour moi, il est plus facile de le tester sur mes cercles que sur ce site

sam · Février 6, 2023, 8:23

Oui, mais vous devez également exécuter rake search:reindex

volanar · Février 6, 2023, 8:34

Avez-vous pensé à améliorer la recherche avec meilisearch ? Cela nécessite très peu de ressources et peut être inclus dans la construction Docker.

mcwumbly · Avril 26, 2023, 5:56

7 messages ont été divisées dans un nouveau sujet : Prioriser les sujets fermés ou résolus dans la recherche

Falco · Février 6, 2023, 2:59

Nous avons commencé des expériences dans ce domaine par

Les premières expériences sont limitées à la recherche d’utilisateurs / groupes, mais si tout se passe bien, elles pourront être étendues davantage.

sam · Février 7, 2023, 6:31

Nous avons envisagé diverses intégrations, notamment sphinx, melli, elastic, solr/lucene, mais elles ont un coût. Héberger un autre processus pour l’indexation, risquer des index obsolètes, la complexité… etc. ne sont pas gratuits.

J’aimerais voir quelle est la performance de PG avant d’explorer d’autres options et de les considérer en dernier recours.

Problème très intéressant, oui, ils sont (et ont toujours été) dépriorisés. Je pense qu’au minimum, nous pouvons envisager d’ajouter un paramètre de site à discourse-solved pour permettre aux administrateurs de décider quoi faire dans ces cas (prioriser/déprioriser/neutre, etc.).

volanar · Février 7, 2023, 6:59

Malheureusement, postgres n’est pas adapté comme moteur de recherche. Et meilisearch a une consommation de mémoire fantastiquement faible et des possibilités de recherche illimitées. La surcharge pour le serveur par rapport à ruby sera tout simplement invisible.

sam · Février 7, 2023, 7:16

Ce n’est pas un problème trivial. Notre recherche contient d’énormes quantités de dimensions et a beaucoup de paramètres, elle joint directement des tables postgres.

Avec un fournisseur de recherche externe, nous devons nous soucier de la « synchronisation ».

Un sujet est fermé sur Discourse → notifier le moteur
Un message est supprimé → notifier le moteur
Un j’aime est ajouté → notifier le moteur
Un sujet est divisé ou fusionné → notifier le moteur

La liste est longue, y compris la création de plusieurs index (utilisateurs/messages/sujets/catégories)

Cela dit, avec le bon investissement, ce n’est pas nécessairement insurmontable, mais c’est une tâche énorme et il n’y a pas de preuve de concept montrant à quel point ce serait mieux. C’est bien que melli ait un classement par rang des fautes de frappe, et de nombreuses autres fonctionnalités, aucun argument là-dessus. Mais l’intégrer n’est pas gratuit du tout.

À titre d’estimation approximative, je pense qu’il y aurait environ 3 mois de travail pour construire une intégration étroite et robuste dans mellisearch. Peut-être même 6 mois si nous concevions Discourse de telle manière que le moteur de recherche soit « enfichable ».

Notez que nous prenons en charge l’intégration d’algolia ici : https://discourse.algolia.com/ ce n’est pas tout à fait solide, et vous pouvez voir que toute la recherche avancée est omise de l’implémentation.

volanar · Février 7, 2023, 7:23

Je suis prêt à parier qu’avec une communauté de discours aussi importante que discourse, cela peut être beaucoup plus rapide, pas plus de trois mois.

Jagster · Février 19, 2023, 8:53

Après un certain temps, j’ai demandé ce que pensaient mes utilisateurs les plus actifs (je veux dire « pensaient » ) de la recherche — je n’avais jamais dit qu’elle avait pris des stéroïdes.

Tout le monde a dit exactement la même chose : ils ne l’avaient pas remarqué, mais parce que je leur ai demandé, ils ont réalisé qu’ils trouvaient désormais beaucoup plus facilement des résultats pertinents, souvent immédiatement.

Une partie de Discourse fonctionne comme un système de commentaires pour WordPress. Non, je n’ai pas plus de commentaires (rien n’est aussi surévalué que les commentaires de blog) mais cela a montré l’existence (est-ce que ça s’écrit comme ça ?) du forum. De nos jours, j’ai quelques utilisateurs qui utilisent Discourse comme moteur de recherche. Ils ne commentent pas, mais ils recherchent ce qu’ils cherchent dans WordPress via les sujets de Discourse, puis retournent sur le blog. Bien sûr, le système de tags aide aussi beaucoup. Et WordPress manque des deux : une recherche efficace et un système de tags fonctionnel.

Je ne sais pas si je devrais poster cela dans Community Building > Praise à la place, mais je voulais juste dire que je suis assez satisfait de la façon dont cette nouvelle recherche améliorée fonctionne.

sam · Février 19, 2023, 11:05

Wow merci, cela me fait vraiment chaud au cœur ! Nous avons une PR en préparation et nous devrions déployer les changements à l’échelle mondiale très bientôt.

mattdm · Mars 20, 2023, 7:24

Désolé si je suis obtus — cela devrait-il être actif sur les sites hébergés (avec le dernier déploiement) ? L’annonce de sortie pointe ici, mais cela parle d’un réglage caché — ce réglage caché est-il activé ?

mcwumbly · Mars 20, 2023, 8:01

Vous n’avez rien à faire :

Sam Saffron:

mcdanlj:

il semble que prioritize_exact_search_title_match soit toujours caché. Est-ce quelque chose que nous sommes censés utiliser ? Devrions-nous exécuter rake search:reindex après le déploiement comme je le vois dans ce commentaire du fil de discussion ?

Non et non

Nous avons modifié le prioritize_exact_search_title_match par défaut, il est maintenant vrai par défaut.

Nous avons également augmenté notre version d’index à la version 5.

Cela signifie que tous les 2 heures, 10 000 sujets et 20 000 des nouveaux messages avec une ancienne version d’index seront réindexés.

Vous pouvez accélérer le processus en exécutant rake search:reindex, mais ce n’est vraiment pas nécessaire, cela se fera automatiquement en arrière-plan de toute façon. (cela s’est probablement déjà produit pour la plupart)

Je mettrai à jour le message original avec une note.

Luke_Cousins · Mars 31, 2023, 6:15

Merci pour cette fantastique mise à jour. Pour nous, la possibilité de définir des synonymes de recherche serait une énorme amélioration :pray : Merci.

sam · Avril 4, 2023, 4:44

9 messages ont été déplacées vers un nouveau sujet : Puis-je exclure les noms d’utilisateur de la recherche

dsims · Avril 5, 2023, 9:02

Je ne sais pas si c’était un problème auparavant, mais j’ai remarqué que de nombreux messages créés par le système apparaissaient dans les résultats de recherche. C’est peut-être un cas particulier plus visible ici sur meta, mais je ne m’attendrais pas à ce que les messages système soient pertinents pour la recherche.

Exemple de résultat lors de la recherche de termes comme « fermé automatiquement » :

mattdm · Avril 5, 2023, 11:08

Je ne peux pas reproduire cela ici.

Moin · Avril 6, 2023, 3:45

Je peux reproduire cela ; si vous les triez par dernier message au lieu de pertinence, il y a beaucoup de messages système dans les résultats.

mattdm · Avril 6, 2023, 5:32

Ah, oui, je vois. Ce n’est pas tout, mais c’est plus que raisonnable. Il semble que ces messages devraient être exclus de la recherche.

Sujet		Réponses	Vues
Discourse needs better search Feature search	39	1965	Juillet 10, 2025
Search results should prioritize first post in topic when title matches search term Feature	41	3136	Février 18, 2022
Prioritizing closed or solved topics in search Feature search	19	1229	Mai 3, 2023
Should search prioritize recent topics over older topics? Feature	53	6078	Août 22, 2014
Feedback on our instant search experiment Feature search , feedback	33	1523	Août 7, 2024