È la ricerca semantica a pagina intera solo in inglese?

Ricerca semantica a pagina intera… può essere solo in inglese? E c’è bisogno di un po’ di magia Rails per rendergli la vita più facile?

Potrei lavorare a condizione che si passi il modello di embedding a quello multilingue. Non l’ho testato, ma in teoria dovrebbe funzionare.

Ho appena iniziato a chiedermi perché nella maggior parte dei casi non possa offrire nulla e se ci sono risultati di ricerca, quelli sono irrilevanti.

Qual modello stai usando per gli embedding?
Hai generato embedding per tutti gli argomenti?
Quale modello stai usando per la HyDE Search?

  • text-embedding-ada-002
  • Per quanto ne so sì
  • gpt-3.5-turbo

Ho fatto qualche test — scusa, non molto coerentemente, ma usando uno stile da lepre tra i fari di un’auto.

Può sicuramente anche in finlandese. Penso che ci siano problemi più fondamentali con l’IA e le lingue minori. E gli utenti.

Prima di tutto, OpenAI non ha abbastanza materiale per gestire il finlandese, ma sono sicuro che questa situazione include tutte le lingue per cui non c’è abbastanza materiale che l’IA possa usare per imparare. Ciò significa che la semantica è un problema molto più difficile di altre questioni, e quelle sono davvero difficili per Chat GPT quando viene utilizzata in una lingua diversa dall’inglese o da altre lingue principali.

Sembra che GPT-4 sia più accurato di GPT-3.5-turbo. Ma quando GPT 3.5 sbagliava circa 8 volte su 10 e persino Discourse poteva offrire quelle 2 giuste usando puramente i tag, GPT-4 aveva un rapporto di successo di circa il 50%. E sì, queste sono statistiche approssimative.

Creare una ricerca in cui l’approccio semantico sia… utile, è in realtà piuttosto difficile. Per me almeno perché avevo aspettative su cosa avrei dovuto ottenere. Quindi non si tratta solo di ricerche semantiche reali, ma più o meno di cercare usando una frase di ricerca non accurata su un elenco di termini di ricerca creati da quella frase. Sì, lo so — anche una cosa del genere è una ricerca semantica.

Il mio punto debole è che il componente semantico funziona come dovrebbe, ma i problemi derivano dai limiti dell’IA stessa e dalle aspettative troppo alte dell’utente. E la lingua diversa dall’inglese non è un problema di per sé.

Ma…

La ricerca semantica a pagina intera è terribilmente lenta. Ho ragione se do la colpa alla debolezza tecnica del mio VPS — RAM insufficiente, creature magiche ecc? Perché qui è veloce.

In secondo luogo… possiamo a un certo punto offrire i risultati dell’IA come predefiniti, rispetto a quelli generati da Discourse?

Solo per tenere insieme cose e argomenti: mi sbagliavo di grosso. Non ha nulla a che fare con 3.5 e 4. Il motivo è stato il comportamento della ricerca semantica sui dispositivi mobili. Inizia la ricerca dopo tre caratteri e quindi il risultato è molto sbagliato. Quando viene aperto il filtro avanzato, o viene cliccato il pulsante di ricerca se ricordo bene, l’IA effettuerà una nuova ricerca e aggiornerà i risultati — e quindi il “rapporto di successo” è più vicino al giusto.