Kürzlich haben wir uns aufgrund von internem Feedback entschieden, eine Reihe von Verbesserungen an unserem Suchalgorithmus zu priorisieren.
Diese Änderungen wurden nun als Teil von Discourse 3.1.0.beta3 auf allen Websites ausgerollt. Nach dem Update beginnt Ihre Website automatisch damit, alle Ihre Inhalte für die Suche neu zu indizieren.
Als Teil davon gibt es zwei neue Website-Einstellungen, diese wurden jedoch auf Werte gesetzt, die sich hier auf Meta in unseren Tests gut bewährt haben, sodass wir nicht erwarten, dass die meisten Websites Gründe haben werden, diese zu ändern.
Priorisierung der vollständigen Übereinstimmung von Begriffen im Titel gegenüber der Teilübereinstimmung
Discourse führt beim Suchen einen Stamm + Präfix-Übereinstimmung durch. Dies kann manchmal zu sehr überraschenden Ergebnissen führen.
Zum Beispiel: redis wird zu redi gestemmt, sodass eine Suche nach redis alle Wörter finden kann, die mit redi beginnen, wie z. B. redirect und mehr.
Eine neue versteckte Website-Einstellung wurde hinzugefügt: prioritize_exact_search_title_match, die jetzt standardmäßig aktiviert ist.
Vorher:
Nachher:
Das bedeutet, wenn Sie sich an den Titel erinnern und ihn eingeben, ist die Wahrscheinlichkeit, den Titel zu treffen, weitaus höher.
Reduzierte maximale Indexduplizierung
Unser Ranking-Algorithmus bewertet Beiträge, die mehrere Treffer für einen Begriff haben, höher als Beiträge, die den Begriff nur einmal enthalten. Das bedeutet, dass Sie bei der Suche schummeln können, indem Sie einfach ein Wort immer wieder wiederholen. Je öfter Sie das Wort eingeben, desto höher steigt es in der Suche auf.
Eine neue versteckte Website-Einstellung SiteSetting.max_duplicate_search_index_terms, die standardmäßig auf 6 gesetzt ist.
Sobald dies angewendet wird, bedeutet dies, dass, wenn Sie ein Wort wie „Sam“ sechs- oder sechzigmal in einem Beitrag eingeben, es immer noch gleich eingestuft wird. Es setzt eine Obergrenze für den Bonus, den Sie Ergebnissen geben können.
Diese Änderung hat auch positive Auswirkungen auf die Leistung, da der Suchindex etwas kleiner wird.
Verschiedene Fehlerbehebungen
Ein Teil der Arbeit bestand darin, pathologische Suchfälle zu betrachten.
-
Zuvor haben wir die Priorität von geschlossenen Themen herabgestuft, aber die archivierten Themen vergessen. Dies ist jetzt behoben.
-
Zuvor waren wir zu stark auf Präfix-Übereinstimmungen für “Domain”-Suchen angewiesen. Das bedeutet, dass das Wort
happyhttps://happy.comnicht finden würde, dahappyzuhappigestemmt wird und die Präfix-Übereinstimmung fehlschlägt. Dies wurde behoben.
Zukünftige Arbeit
-
Wir planen, “Fuzzy”-Suche für die Erwähnungs-Autocomplete zu experimentieren. (z. B. einen Buchstaben überspringen lassen)
-
Wir planen, die De-Priorisierung von doppelten Begriffen in Titeln zu untersuchen. Derzeit wird das geschlossene Thema
hallo auf wiedersehen hallohöher eingestuft als das offene Themahallo welt -
PageRank… wir berücksichtigen derzeit nicht die Anzahl der eingehenden, internen Links bei der Bewertung von Ergebnissen. Das bedeutet, dass manchmal unglaublich gut verlinkte Themen niedriger eingestuft werden können als ein seltenes Thema, das von nirgendwo verlinkt ist. Es wäre schön, dies in unserem Ranking-Algorithmus zu berücksichtigen.
-
Wir haben eine laufende Initiative, die sich mit KI-Integrationen befasst. Möglicherweise können wir uns von GPT-ähnlichen Tools inspirieren lassen.
Was Sie tun können, um zu helfen?
Bemerken Sie schlechte Ergebnisse auf Meta? Wenn ja, geben Sie bitte den gesuchten Begriff an und erklären Sie, warum die Ergebnisse mangelhaft sind.
Wie fühlen sich die Änderungen für Sie an (neutral/besser/schlechter?)


