Capacità/limiti della ricerca full-text del database?

tgxworld · 20 Gennaio 2021, 1:29am

Lascia che chiarisca questa affermazione. Per le corrispondenze esatte, non c’è bisogno di classificare i risultati poiché o c’è una corrispondenza o non c’è. Per le corrispondenze parziali, come decidiamo quali dovrebbero essere classificate più in alto?

Questa è la mia parola chiave di ricerca
La parola chiave di ricerca è interessante
La parola chiave di ricerca è più interessante qui poiché il titolo è più lungo

Tutti i titoli sopra contengono la parola chiave di ricerca, quindi la domanda è: come classifichiamo i risultati? Attualmente ci affidiamo alla funzione di classificazione di Postgres per determinarlo per noi.

Le classifiche tentano di misurare quanto i documenti siano pertinenti a una specifica query, in modo che quando ci sono molte corrispondenze, quelle più rilevanti possano essere mostrate per prime. PostgreSQL fornisce due funzioni di classificazione predefinite, che tengono conto di informazioni lessicali, di prossimità e strutturali; cioè, considerano quanto spesso i termini della query appaiono nel documento, quanto sono vicini tra loro nel documento e quanto è importante la parte del documento in cui si verificano. Tuttavia, il concetto di rilevanza è vago e molto specifico dell’applicazione. Diverse applicazioni potrebbero richiedere informazioni aggiuntive per la classificazione, ad esempio la data di modifica del documento. Le funzioni di classificazione integrate sono solo esempi. Puoi scrivere le tue funzioni di classificazione e/o combinare i loro risultati con fattori aggiuntivi per adattarli alle tue esigenze specifiche.

Ci sono molti fattori che Postgres prende in considerazione, ma alla fine la classificazione rimane piuttosto vaga e dipende davvero da sito a sito, a seconda di come è strutturato il contenuto del forum. Il nostro obiettivo qui su Discourse è fornire un buon valore predefinato che funzioni per la maggior parte dei forum esistenti.

Argomento		Risposte	Visualizzazioni
Search results should prioritize first post in topic when title matches search term Feature	41	2934	Febbraio 18, 2022
Search doesn't behave as I would expect Support	2	442	Luglio 6, 2024
Refinements to search being tested on meta Announcements search	19	4469	Giugno 2, 2024
Search only within topic titles Feature search	10	3212	Febbraio 20, 2018
Search function improvement Support	6	598	Giugno 28, 2019

Capacità/limiti della ricerca full-text del database?

Argomenti correlati