A pesquisa semântica de página inteira é apenas em inglês?

Busca semântica de página inteira… pode ser apenas em inglês? E é necessária alguma mágica do Rails para facilitar a vida dele?

Eu poderia trabalhar, desde que você mude o modelo de embeddings para o multilíngue. Eu não testei, mas teoricamente deve funcionar.

Comecei a me perguntar porque na maioria dos casos ele não pode oferecer nada e se há resultados de pesquisa, eles são totalmente irrelevantes.

Qual modelo você está usando para embeddings?
Você gerou embeddings para todos os tópicos?
Qual modelo você está usando para HyDE Search?

  • text-embedding-ada-002
  • Pelo que sei, sim
  • gpt-3.5-turbo

Fiz alguns testes — desculpe, não muito consistentemente, mas usando um estilo como uma lebre entre os faróis de um carro.

Definitivamente pode ser em finlandês também. Acho que há questões mais fundamentais de IA e linguagem minoritária. E usuários.

Primeiro, a OpenAI não tem material suficiente para lidar com o finlandês, mas tenho certeza de que essa situação inclui todas as línguas onde não há material suficiente que a IA possa usar para aprender. Isso significa que a semântica é uma questão muito mais difícil do que outras, e essas são realmente difíceis para o Chat GPT quando usado em outra língua que não o inglês ou outras principais.

Parece que o GPT-4 é mais preciso do que o GPT-3.5-turbo. Mas quando os acertos do 3.5 eram apenas ruído, talvez 8 em cada 10 vezes e até o Discourse poderia oferecer os 2 acertos usando puramente tags, o GPT-4 teve uma taxa de sucesso de cerca de 50%. E sim, essas são estatísticas de chapéu de vaqueiro.

Criar uma busca onde a abordagem semântica é… útil, é realmente bastante difícil. Para mim, de qualquer forma, porque eu tinha expectativas sobre o que deveria obter. Portanto, não é apenas uma questão de buscas semânticas reais, mas sim de buscar usando uma frase de busca não precisa sobre uma lista de termos de busca criados a partir dessa frase. Sim, eu sei — isso também é uma busca semântica.

Meu ponto fraco é que o componente semântico funciona como deveria, mas os problemas vêm das limitações da própria IA e das expectativas muito altas do usuário. E a linguagem diferente do inglês não é um problema em si.

Mas…

A busca semântica de página inteira é terrivelmente lenta. Estou certo se culpar a fraqueza técnica do meu VPS — RAM insuficiente, criaturas mágicas etc? Porque aqui é rápido.

Em segundo lugar… podemos em algum momento oferecer os acertos da IA como padrão, em vez daqueles gerados pelo Discourse?

Só para manter as coisas e os tópicos juntos: eu estava muito enganado. Isso não tem nada a ver com 3.5 e 4. A razão foi a ação da busca semântica em dispositivos móveis. Ela começa a pesquisar após três caracteres e então o resultado está muito errado. Quando o filtro avançado é aberto, ou o botão de pesquisa é clicado, se bem me lembro, a IA fará uma nova pesquisa e atualizará os resultados — e então a “taxa de acerto” fica mais próxima do correto.