Verfeinerungen bei der Suche, die auf Meta getestet werden

sam · 6. Februar 2023 um 06:05

Kürzlich haben wir uns aufgrund von internem Feedback entschieden, eine Reihe von Verbesserungen an unserem Suchalgorithmus zu priorisieren.

Diese Änderungen wurden nun als Teil von Discourse 3.1.0.beta3 auf allen Websites ausgerollt. Nach dem Update beginnt Ihre Website automatisch damit, alle Ihre Inhalte für die Suche neu zu indizieren.

Als Teil davon gibt es zwei neue Website-Einstellungen, diese wurden jedoch auf Werte gesetzt, die sich hier auf Meta in unseren Tests gut bewährt haben, sodass wir nicht erwarten, dass die meisten Websites Gründe haben werden, diese zu ändern.

Priorisierung der vollständigen Übereinstimmung von Begriffen im Titel gegenüber der Teilübereinstimmung

Discourse führt beim Suchen einen Stamm + Präfix-Übereinstimmung durch. Dies kann manchmal zu sehr überraschenden Ergebnissen führen.

Zum Beispiel: redis wird zu redi gestemmt, sodass eine Suche nach redis alle Wörter finden kann, die mit redi beginnen, wie z. B. redirect und mehr.

Eine neue versteckte Website-Einstellung wurde hinzugefügt: prioritize_exact_search_title_match, die jetzt standardmäßig aktiviert ist.

Vorher:

Nachher:

Das bedeutet, wenn Sie sich an den Titel erinnern und ihn eingeben, ist die Wahrscheinlichkeit, den Titel zu treffen, weitaus höher.

Reduzierte maximale Indexduplizierung

Unser Ranking-Algorithmus bewertet Beiträge, die mehrere Treffer für einen Begriff haben, höher als Beiträge, die den Begriff nur einmal enthalten. Das bedeutet, dass Sie bei der Suche schummeln können, indem Sie einfach ein Wort immer wieder wiederholen. Je öfter Sie das Wort eingeben, desto höher steigt es in der Suche auf.

Eine neue versteckte Website-Einstellung SiteSetting.max_duplicate_search_index_terms, die standardmäßig auf 6 gesetzt ist.

Sobald dies angewendet wird, bedeutet dies, dass, wenn Sie ein Wort wie „Sam“ sechs- oder sechzigmal in einem Beitrag eingeben, es immer noch gleich eingestuft wird. Es setzt eine Obergrenze für den Bonus, den Sie Ergebnissen geben können.

Diese Änderung hat auch positive Auswirkungen auf die Leistung, da der Suchindex etwas kleiner wird.

Verschiedene Fehlerbehebungen

Ein Teil der Arbeit bestand darin, pathologische Suchfälle zu betrachten.

Zuvor haben wir die Priorität von geschlossenen Themen herabgestuft, aber die archivierten Themen vergessen. Dies ist jetzt behoben.
Zuvor waren wir zu stark auf Präfix-Übereinstimmungen für “Domain”-Suchen angewiesen. Das bedeutet, dass das Wort happy https://happy.com nicht finden würde, da happy zu happi gestemmt wird und die Präfix-Übereinstimmung fehlschlägt. Dies wurde behoben.

Zukünftige Arbeit

Wir planen, “Fuzzy”-Suche für die Erwähnungs-Autocomplete zu experimentieren. (z. B. einen Buchstaben überspringen lassen)
Wir planen, die De-Priorisierung von doppelten Begriffen in Titeln zu untersuchen. Derzeit wird das geschlossene Thema hallo auf wiedersehen hallo höher eingestuft als das offene Thema hallo welt
PageRank… wir berücksichtigen derzeit nicht die Anzahl der eingehenden, internen Links bei der Bewertung von Ergebnissen. Das bedeutet, dass manchmal unglaublich gut verlinkte Themen niedriger eingestuft werden können als ein seltenes Thema, das von nirgendwo verlinkt ist. Es wäre schön, dies in unserem Ranking-Algorithmus zu berücksichtigen.
Wir haben eine laufende Initiative, die sich mit KI-Integrationen befasst. Möglicherweise können wir uns von GPT-ähnlichen Tools inspirieren lassen.

Was Sie tun können, um zu helfen?

Bemerken Sie schlechte Ergebnisse auf Meta? Wenn ja, geben Sie bitte den gesuchten Begriff an und erklären Sie, warum die Ergebnisse mangelhaft sind.

Wie fühlen sich die Änderungen für Sie an (neutral/besser/schlechter?)

Jagster · 6. Februar 2023 um 08:18

Nur um sicherzugehen… Wenn ich mein Setup aktualisiere/upgraden werde, finde ich dann diese beiden Einstellungen? Ich weiß, wie man versteckte findet, das ist kein Problem – aber sind diese im Moment nur für Meta? Für mich ist es einfacher, es in meinen Kreisen zu testen als hier

sam · 6. Februar 2023 um 08:23

Ja, aber Sie müssen auch rake search:reindex ausführen

volanar · 6. Februar 2023 um 08:34

Haben Sie darüber nachgedacht, die Suche mit Meilisearch zu verbessern? Dies erfordert nur wenige Ressourcen und kann in den Docker-Build integriert werden.

mcwumbly · 26. April 2023 um 17:56

7 Beiträge wurden in ein neues Thema aufgeteilt: Priorisierung geschlossener oder gelöster Themen in der Suche

Falco · 6. Februar 2023 um 14:59

Wir haben in diesem Bereich mit Experimenten begonnen, indem wir

Erste Experimente sind auf die Benutzer-/Gruppensuche beschränkt, aber wenn alles gut geht, kann dies weiter ausgebaut werden.

sam · 7. Februar 2023 um 06:31

Wir haben verschiedene Integrationen in Betracht gezogen, darunter Sphinx, Melli, Elastic, Solr/Lucene, aber diese sind mit Kosten verbunden. Das Hosten eines weiteren Prozesses für die Indizierung, das Risiko veralteter Indizes, Komplexität usw. sind allesamt nicht kostenlos.

Ich möchte sehen, wie weit wir mit PG kommen, bevor wir andere Optionen in Betracht ziehen, und diese als letzte Möglichkeit betrachten.

Sehr interessantes Problem, ja, sie werden (und waren schon immer) nachrangig behandelt. Ich denke, wir können uns zumindest ansehen, eine Site-Einstellung für discourse-solved hinzuzufügen, damit Administratoren entscheiden können, was in diesen Fällen zu tun ist (priorisieren/nachrangig behandeln/neutral usw.).

volanar · 7. Februar 2023 um 06:59

Leider ist PostgreSQL nicht als Suchmaschine geeignet. Und Meilisearch hat fantastisch geringen Speicherverbrauch und unbegrenzte Suchmöglichkeiten. Der Overhead für den Server im Vergleich zu Ruby wird einfach unsichtbar sein.

sam · 7. Februar 2023 um 07:16

Das ist kein triviales Problem. Unsere Suche enthält eine riesige Menge an Dimensionen und hat viele Parameter, sie greift direkt auf PostgreSQL-Tabellen zu.

Mit einem externen Suchanbieter müssen wir uns um die „Synchronisierung“ kümmern.

Ein Thema wird in Discourse geschlossen → Benachrichtige die Engine
Ein Beitrag wird gelöscht → Benachrichtige die Engine
Ein Like wird vergeben → Benachrichtige die Engine
Ein Thema wird geteilt oder zusammengeführt → Benachrichtige die Engine

Die Liste geht weiter, einschließlich des Aufbaus mehrerer Indizes (Benutzer/Beiträge/Themen/Kategorien).

Das heißt, mit der richtigen Investition ist dies nicht unbedingt unüberwindbar, aber es ist eine enorme Aufgabe und es gibt keinen Proof of Concept, der zeigt, wie viel besser es wäre. Es ist schön, dass melli einen Tippfehler-Ranker und viele andere Funktionen hat, keine Frage. Aber die Integration ist überhaupt nicht kostenlos.

Als grobe Schätzung würde ich denken, dass es etwa 3 Monate Arbeit erfordert, um eine enge und robuste Integration in MelliSearch zu entwickeln. Vielleicht sogar 6 Monate, wenn wir Discourse so gestalten würden, dass die Suchmaschine „plug-in-fähig“ ist.

Beachten Sie, dass wir hier die Algolia-Integration unterstützen: https://discourse.algolia.com/ Sie ist noch nicht ganz ausgereift, und Sie können sehen, dass die gesamte erweiterte Suche von der Implementierung weggelassen wird.

volanar · 7. Februar 2023 um 07:23

Ich wette, dass es mit einer so großen Community von Diskursen wie Discourse viel schneller gehen kann, nicht mehr als drei Monate.

Jagster · 19. Februar 2023 um 20:53

Nach einiger Zeit fragte ich meine aktivsten Nutzer, was sie über die Suche dachten (~~dachten~~ ), ich habe nie gesagt, dass sie Steroide bekommen hat.

Alle sagten genau dasselbe; sie hatten nicht darüber nachgedacht, aber weil ich gefragt habe, merkten sie, dass sie jetzt viel einfacher relevante Treffer gefunden haben, in den meisten Fällen sofort.

Ein Teil von Discourse fungiert als Kommentarsystem von WordPress. Nein, ich bekomme nicht mehr Kommentare (nichts ist so überbewertet wie das Kommentieren von Blogs), aber es hat die Existenz (wird das so geschrieben?) des Forums gezeigt. Heutzutage habe ich eine Handvoll Benutzer, die Discourse als Suchmaschine nutzen. Sie kommentieren nicht, aber sie suchen über Discourse-Themen nach dem, was sie in WordPress suchen, und kehren zum Blog zurück. Sicher, das Tag-System hilft auch sehr. Und WordPress fehlt beides: effektive Suche und funktionierendes Tagging.

Ich weiß nicht, ob ich das in Praise posten sollte, aber ich wollte nur sagen, dass ich ziemlich zufrieden bin, wie diese neue und verbesserte Suche funktioniert.

sam · 19. Februar 2023 um 23:05

Wow, danke, das gibt mir wirklich ein gutes Gefühl! Wir haben gerade einen PR in der Entwicklung und sollten die Änderungen bald weltweit ausrollen.

mattdm · 20. März 2023 um 19:24

Entschuldigung, wenn ich mich dumm anstelle – sollte dies auf gehosteten Websites (mit dem neuesten Deploy) aktiv sein? Die Release-Ankündigung verweist hierher, aber hier wird eine versteckte Einstellung besprochen – ist diese versteckte Einstellung aktiviert?

mcwumbly · 20. März 2023 um 20:01

Sie müssen nichts tun:

Sam Saffron:

mcdanlj:

Es sieht so aus, als ob prioritize_exact_search_title_match immer noch versteckt ist. Ist das etwas, das wir erwarten können zu verwenden? Sollen wir rake search:reindex nach dem Deploy ausführen, wie ich in diesem Kommentar im Thread sehe?

Nein und nein

Wir haben den Standardwert für prioritize_exact_search_title_match auf true geändert.

Wir haben auch unsere Indexversion auf Version 5 hochgestuft.

Das bedeutet, dass alle 2 Stunden 10.000 Themen und 20.000 der neuesten Beiträge mit einer alten Indexversion neu indiziert werden.

Sie können den Prozess beschleunigen, indem Sie rake search:reindex ausführen, aber es ist eigentlich nicht notwendig, er wird sowieso automatisch im Hintergrund erfolgen. (Für die meisten ist er wahrscheinlich schon erfolgt)

Ich werde den ursprünglichen Beitrag mit einer Notiz aktualisieren.

Luke_Cousins · 31. März 2023 um 18:15

Vielen Dank für das fantastische Update. Für uns wäre die Möglichkeit, Suchbegriffe zu definieren, eine enorme Verbesserung Vielen Dank.

sam · 4. April 2023 um 04:44

9 Beiträge wurden in ein neues Thema aufgeteilt: Kann ich Benutzernamen von der Suche ausschließen

dsims · 5. April 2023 um 21:02

Ich bin mir nicht sicher, ob dies schon einmal ein Problem war, aber mir ist aufgefallen, dass viele systemerstellte Beiträge in den Suchergebnissen angezeigt werden. Vielleicht ein Grenzfall, der hier im Meta-Bereich auffälliger ist, aber ich würde nicht erwarten, dass Systemnachrichten für die Suche relevant sind.

Beispielergebnis bei der Suche nach Begriffen wie „automatisch geschlossen“:

mattdm · 5. April 2023 um 23:08

Das kann ich hier nicht reproduzieren.

Moin · 6. April 2023 um 03:45

Ich kann das reproduzieren; wenn Sie sie nach dem neuesten Beitrag statt nach Relevanz sortieren, gibt es viele Systemnachrichten in den Ergebnissen.

mattdm · 6. April 2023 um 05:32

Ah, ja, das sehe ich dann. Es ist nicht alles, aber mehr als angemessen. Es scheint, dass diese Nachrichten von der Suche ausgeschlossen werden sollten.

Thema		Antworten	Aufrufe
Discourse needs better search Feature search	39	1861	10. Juli 2025
Search results should prioritize first post in topic when title matches search term Feature	41	2934	18. Februar 2022
Prioritizing closed or solved topics in search Feature search	19	1213	3. Mai 2023
Should search prioritize recent topics over older topics? Feature	53	5995	22. August 2014
Feedback on our instant search experiment Feature search , feedback	33	1430	7. August 2024