Recentemente, a seguito di feedback interni, abbiamo deciso di dare priorità a una serie di miglioramenti al nostro algoritmo di ricerca.
Queste modifiche sono ora state distribuite su tutti i siti come parte di Discourse 3.1.0.beta3. Dopo l’aggiornamento, il tuo sito inizierà automaticamente a reindicizzare tutti i tuoi contenuti per la ricerca.
Ci sono due nuove impostazioni del sito come parte di questo, ma sono state impostate su valori che abbiamo riscontrato funzionare bene nei nostri test qui su meta, quindi non ci aspettiamo che la maggior parte dei siti abbia alcun motivo per cambiarle.
Dare priorità alla corrispondenza esatta del termine nel titolo rispetto alla corrispondenza parziale
Discourse esegue uno stem + corrispondenza prefisso durante la ricerca. Questo a volte può portare a risultati molto sorprendenti.
Ad esempio: redis viene ridotto a redi, quindi una ricerca per redis può trovare tutte le parole che iniziano con redi, come redirect e altro ancora.
Una nuova impostazione nascosta del sito è stata aggiunta: prioritize_exact_search_title_match che ora è abilitata per impostazione predefinita.
Prima:
Dopo:
Ciò significa che se ricordi il titolo e lo digiti, è molto più probabile che tu trovi il titolo.
Ridotta la duplicazione massima dell’indice
Il nostro algoritmo di ranking classifica i post che hanno più corrispondenze con un termine più in alto rispetto ai post che contengono il termine solo una volta. Ciò significa che puoi “barare” nella ricerca semplicemente ripetendo una parola un sacco di volte. Più digiti la parola, più in alto sale in cima alla ricerca.
Una nuova impostazione nascosta del sito SiteSetting.max_duplicate_search_index_terms che per impostazione predefinita è 6.
Una volta applicato, significa che se digiti “sam” 6 volte o 60 volte in un post, verrà comunque classificato allo stesso modo. Mette un tetto al bonus che puoi dare ai risultati.
Questa modifica ha anche un impatto positivo sulle prestazioni, dato che l’indice di ricerca diventa un po’ più piccolo.
Correzioni di bug varie
Parte del lavoro è stato esaminare casi di ricerca patologici.
- In precedenza abbiamo abbassato la priorità degli argomenti chiusi, ma abbiamo dimenticato gli argomenti archiviati. Questo è ora corretto.
- In precedenza ci siamo affidati troppo alle corrispondenze di prefisso per le ricerche di “dominio”. Ciò significa che la parola
happynon trovavahttps://happy.compoichéhappyviene ridotto ahappie la corrispondenza del prefisso fallisce. Questo è stato corretto.
Lavori futuri
- Abbiamo in programma di sperimentare la ricerca “fuzzy” per l’autocompletamento delle menzioni. (consentire di saltare una lettera, ad esempio)
- Abbiamo in programma di indagare sulla de-prioritizzazione dei termini duplicati nei titoli. Attualmente l’argomento chiuso
ciao arrivederci ciaoè classificato più in alto dell’argomento apertociao mondo - PageRank… attualmente non teniamo conto del numero di link interni in entrata quando classifichiamo i risultati. Ciò significa che a volte argomenti incredibilmente ben collegati possono classificarsi più in basso di un argomento raro che non è collegato da nessuna parte. Sarebbe bello tenerne conto nel nostro algoritmo di ranking.
- Abbiamo un’iniziativa aperta che esamina le integrazioni AI, potremmo trarre ispirazione da strumenti simili a GPT.
Cosa puoi fare per aiutare?
Stai notando risultati negativi su meta? In tal caso, includi il termine che hai cercato spiegando perché i risultati sono scadenti.
Come ti sembrano i cambiamenti (neutrali/migliori/peggiori?)


