Ricerca AI per trovare corrispondenze non esatte

bigfudge · 17 Agosto 2023, 10:08am

Utilizziamo il nostro sito come base di conoscenza e forum di discussione per un dipartimento universitario. Quindi, ad esempio, posso immaginare che le persone vogliano chiedere cose come:

quando saranno disponibili i voti del MSc?
qual è il voto di superamento per gli studenti di MPsych?
quante settimane di ferie posso prenotare in una volta sola?
cosa succede se il mio tutor non supera un modulo del primo anno?
cosa richiede l’università che io faccia se il mio tutor si autolesiona?
quanto paghiamo i partecipanti alla ricerca?
come ottengo una promozione?
quali fonti di finanziamento per il dottorato sono disponibili? o quando vengono rilasciate le borse di dottorato della scuola?
dove nel programma gli studenti imparano l’analisi della varianza per misure ripetute?

In ognuno di questi casi abbiamo informazioni abbastanza buone, ma la ricerca tradizionale non trova i risultati corretti da riassumere. A volte non trova nulla, ma altre volte trova vecchie discussioni che non sono la risposta “corretta”.

sam · 17 Agosto 2023, 10:16am

Grazie per il feedback Ben

Vedi la coda delle PR su cui @falco sta lavorando per la ricerca semantica basata su Hyde, una volta pronta proverò ad aggiungere un comando per essa

EricGT · 17 Agosto 2023, 10:26am

Per tua informazione

So che molti qui non sono programmatori e quindi le differenze tra la ricerca per parole chiave e la ricerca semantica possono sembrare confuse o potrebbero volere maggiori informazioni su come funziona. Sebbene quanto segue sia rivolto ai programmatori, è abbastanza basilare da poter apprendere alcuni concetti chiave sulle differenze tra i due metodi di ricerca senza essere un programmatore.

DeepLearning.AI ha recentemente (14/08/2023) aggiunto questo corso base gratuito su

Large Language Models with Semantic Search (ref)

che si trova nella pagina dei corsi brevi.

Per coloro che prestano attenzione a chi è chi nel mondo dell’IA, dovrebbero riconoscere alcune delle persone che presentano.

EricGT · 17 Agosto 2023, 10:39am

Per quelli come me che amano gli articoli di ricerca e come me non conoscevano HyDE, ecco l’articolo.

“Precise Zero-Shot Dense Retrieval without Relevance Labels” di Luyu Gao, Xueguang Ma, Jimmy Lin e Jamie Callan (pdf)

EricGT · 17 Agosto 2023, 11:13am

Puoi fornire un link? (Risposto sotto)

Scusa la domanda, non riuscivo a trovarlo. Ho imparato i comandi dei bot, però. (ref)

bigfudge · 17 Agosto 2023, 11:30am

@EricGT grazie per il link. Quel paper è piuttosto denso per chi non ha già una buona comprensione dell’ML.

Penso che il succo sia che, come applicato qui, HyDE utilizzerebbe un LLM per creare prima una risposta “inventata” basata sulla domanda. Questa risposta avrà la forma di un post di forum reale (ad esempio), ma potrebbe contenere allucinazioni ed essere fattualmente errata perché il contenuto proviene dall’LLM e non da un set di documenti canonico. Questo documento non viene mai mostrato all’utente, ma il trucco interessante è che questo documento sarà semanticamente simile a documenti/argomenti reali sul tuo sito. La ricerca restituisce documenti reali che sono più simili al documento “inventato” e empiricamente questo sembra funzionare meglio che confrontare semplicemente il termine di ricerca grezzo con documenti semanticamente simili nel database degli embedding.

@sam Hyde la ricerca basata su di te sembra fantastica e non vedo l’ora di provarla. Stai pensando a delle manopole regolabili per alcune di queste funzionalità AI? Ad esempio, posso immaginare che potrebbe essere bello modificare i prompt utilizzati sia per generare il documento ipotetico sia per controllare il riassunto/risposta. Ad esempio, l’attuale chatbot è piuttosto verboso quando trova delle risposte. Sarebbe bello poter aggiungere “concisamente” o “brevemente” come prefisso al prompt (come faccio spesso quando uso ChatGPT stesso).

bigfudge · 17 Agosto 2023, 11:31am

github.com/discourse/discourse-ai

FEATURE: HyDE-powered semantic search.

main ← hyde

opened 09:38PM - 15 Aug 23 UTC

xfalcox

+970 -700

It relies on the new outlet added on https://github.com/discourse/discourse/pull…/23390 to display semantic search results in an unobtrusive way. We'll use a HyDE-backed approach for semantic search, which consists on generating an hypothetical document from a given keywords, which gets transformed into a vector and used in a asymmetric similarity topic search. This PR also reorganizes the internals to have less moving parts, maintaining one hierarchy of DAOish classes for vector-related operations like transformations and querying. Completions and vectors created by HyDE will remain cached on Redis for now, but we could later use Postgres instead.

EricGT · 17 Agosto 2023, 11:39am

Bella nota!

So che molti non presteranno attenzione a questa affermazione, ma se stai pagando soldi veri per eseguire prompt, allora questa è una delle affermazioni più preziose che devi capire.

Vedi:

Prompt

40-90%: Importo risparmiato aggiungendo “Sii conciso” al tuo prompt

È importante ricordare che paghi per token per le risposte. Ciò significa che chiedere a un LLM di essere conciso può farti risparmiare molti soldi [1]. Questo può essere ampliato oltre il semplice aggiungere “sii conciso” al tuo prompt: se stai usando GPT-4 per trovare 10 alternative, forse chiedigliene 5 e conserva l’altra metà dei soldi.

Falco · 17 Agosto 2023, 1:38pm

Abbiamo il backend pronto, ma ci vorrà un po’ di tempo per integrarlo correttamente nella pagina dei risultati di ricerca di Discourse, dato che l’interfaccia utente è un po’ complicata.

Oggi non forniamo alcun controllo sui prompt, ma in futuro li renderemo personalizzabili, dopo aver fatto funzionare bene la funzionalità.

Falco · 5 Settembre 2023, 4:00pm

Puoi provarlo qui su Meta, vai semplicemente alla pagina di ricerca e prova alcune domande. Fammi sapere come va per te.

simon · 6 Settembre 2023, 8:15pm

È fantastico! Soprattutto quando inserisco una frase di ricerca che restituisce “Nessun risultato trovato” per la ricerca di corrispondenza esatta.

Sto ottenendo un bel po’ di corrispondenze semanticamente corrette per argomenti Marketplace chiusi. Forse è utile restituirle, ma forse dovrebbero apparire in fondo all’elenco.

Forse alcune ricerche potrebbero essere limitate a categorie o tag specifici. Ad esempio:

Cercando “Come posso impedire l’invio di email di attivazione quando gli utenti accedono da WordPress?” i migliori risultati si troveranno in Documentation o Support > WordPress.
Cercando “Come scrivere una query di Data Explorer che restituisca gli argomenti più apprezzati?” i migliori risultati si troveranno nelle categorie Data & reporting e Documentation.

Se fosse possibile, la ricerca iniziale potrebbe restituire risultati dalle categorie più probabili e potrebbe essere dato un suggerimento di provare ad espandere la ricerca ad altre categorie.

Pensando alla ricerca semantica come prima tappa per utilizzare Discourse come forum di assistenza clienti, sarebbe bello poter dare priorità a categorie o tag specifici. Ad esempio, su Meta la ricerca iniziale potrebbe dare priorità alla ricerca nella categoria Documentation.

Falco · 6 Settembre 2023, 8:22pm

Questo è esattamente uno dei problemi che volevo affrontare con questa nuova funzionalità. La ricerca semantica troverà sempre qualcosa.

Al momento, la ricerca semantica è piuttosto basilare. Consiste solo in poche righe di codice nel backend e restituisce ciò che è semanticamente più vicino. Mancano molte delle funzionalità di ricerca che abbiamo aggiunto alla ricerca standard negli ultimi dieci anni, come Miglioramenti della ricerca in 2.3 e molti altri. Per questo motivo, viene attualmente offerta come un set di risultati complementare.

Se la funzionalità sarà ben accolta e riusciremo a perfezionare l’interfaccia utente nel prodotto, allora tenteremo di incorporare le parti specifiche di Discourse nei risultati della ricerca semantica.

sam · 6 Settembre 2023, 10:48pm

Sì, questo è davvero incredibile per query complesse.

Anche se non ha trovato post per questa query, è stato in grado di trovare abbastanza argomenti che puntano nel posto giusto!

Argomento		Risposte	Visualizzazioni
Use Semantic Search for related topics Support ai	3	76	Ottobre 10, 2024
Discourse AI - AI search Site Management ai-search , ai , how-to	10	2999	Agosto 5, 2025
Discourse AI - AI Bot - a glimpse of capabilities General ai , ai-bot	4	1316	Novembre 22, 2023
Discourse AI - Create/review/suggest reference topic(s) Feature ai	1	384	Agosto 26, 2023
How can i get similar topics based on text query using discourse API Support	2	340	Aprile 4, 2022

Ricerca AI per trovare corrispondenze non esatte

Prompt

40-90%: Importo risparmiato aggiungendo “Sii conciso” al tuo prompt

Argomenti correlati