Recentemente, devido a feedback interno, decidimos priorizar uma rodada de melhorias em nosso algoritmo de busca.
Essas alterações foram implementadas em todos os sites como parte do Discourse 3.1.0.beta3. Após a atualização, seu site começará automaticamente a reindexar todo o seu conteúdo para busca.
Existem duas novas configurações de site como parte disso, mas elas foram definidas para valores que descobrimos que funcionam bem em nossos testes aqui no meta, então não esperamos que a maioria dos sites tenha qualquer motivo para alterá-las.
Priorizando a correspondência exata do termo no título em vez da correspondência parcial
O Discourse realiza um stem + correspondência de prefixo ao pesquisar. Isso às vezes pode levar a resultados muito surpreendentes.
Por exemplo: redis gera o radical redi, então uma pesquisa por redis pode encontrar todas as palavras que começam com redi, como redirect e outras.
Uma nova configuração de site oculta foi adicionada: prioritize_exact_search_title_match, que agora está habilitada por padrão.
Antes:
Depois:
Isso significa que, se você se lembrar do título e digitá-lo, terá muito mais chances de encontrar o título.
Redução da duplicação máxima de índice
Nosso algoritmo de classificação classifica as postagens que têm vários acertos para um termo mais alto do que as postagens que contêm o termo apenas uma vez. Isso significa que você pode “trapacear” na pesquisa simplesmente repetindo uma palavra várias vezes. Quanto mais você digitar a palavra, mais ela subirá para o topo da pesquisa.
Uma nova configuração de site oculta SiteSetting.max_duplicate_search_index_terms foi adicionada, que tem o valor padrão de 6.
Uma vez aplicado, isso significa que se você digitar “sam” 6 vezes ou 60 vezes em uma postagem, ela ainda será classificada da mesma forma. Isso coloca um limite no bônus que você pode dar aos resultados.
Essa mudança também tem um impacto positivo no desempenho, dado que o índice de busca se torna um pouco menor.
Correções de bugs diversos
Parte do trabalho envolveu a análise de casos de busca patológicos.
-
Anteriormente, diminuíamos a prioridade de tópicos fechados, mas esquecemos dos tópicos arquivados. Isso foi corrigido agora.
-
Anteriormente, dependíamos excessivamente de correspondências de prefixo para pesquisas de “domínio”. Isso significa que a palavra
happynão encontrariahttps://happy.com, poishappygera o radicalhappie a correspondência de prefixo falha. Isso foi corrigido.
Trabalho futuro
-
Planejamos experimentar a pesquisa “difusa” para autocompletar menções. (permitir que você pule uma letra, por exemplo)
-
Planejamos investigar a despriorização de termos duplicados em títulos. Atualmente, o tópico fechado
olá adeus oláé classificado mais alto do que o tópico abertoolá mundo -
PageRank… atualmente não levamos em consideração o número de links internos recebidos ao classificar os resultados. Isso significa que, às vezes, tópicos incrivelmente bem linkados podem ter uma classificação mais baixa do que um tópico raro que não é vinculado de lugar nenhum. Seria bom levar isso em consideração em nosso algoritmo de classificação.
-
Temos uma iniciativa em andamento analisando integrações de IA, podemos obter alguma inspiração de ferramentas como o GPT.
O que você pode fazer para ajudar?
Você está notando algum resultado ruim no meta? Se sim, por favor, inclua o termo que você pesquisou, explicando por que os resultados são insatisfatórios.
Como as mudanças estão parecendo para você (neutras/melhores/piores?)


