títulos de tópicos e categorias para cada postagem, mesmo que o tópico não tenha sido criado pelo usuário. Alguns usuários têm “shenanigans”, “Dice” e “Mongerer” entre suas 5 principais palavras. Estas são categorias ou tópicos que têm muitas postagens, mas as palavras não são realmente usadas com tanta frequência no conteúdo dos tópicos ou em outros lugares.
títulos de emojis - O usuário adiciona a todas as suas postagens. Musical e Keyboard estavam entre suas 5 principais palavras.
Usamos nossos dados de pesquisa para encontrar as postagens de um usuário, e esses dados acabam com o título e a categoria adicionados… e o emoji provavelmente é processado de :musical_keyboard: (sua referência markdown) para “musical” e “keyboard” (teclado).
Acho que precisaríamos fazer algum processamento adicional ou usar uma fonte diferente para os dados da postagem para evitar isso… o caso da categoria é provavelmente mais provável de acontecer em sites onde as pessoas fazem muitas postagens curtas (ou apenas com imagens) na mesma categoria, porque nesse caso a categoria apareceria com muita frequência em relação a outro conteúdo da postagem.
Sim, algo está muito errado com esses resultados de frequência de palavras. Para mim, “useful” (útil) é uma das 5 principais palavras incomuns. Mas parece que eu nunca usei essa palavra: pesquisei, obtive muitos “resultados”, sendo que os três primeiros nem sequer contêm a palavra, e a barra lateral do discobot observa:
Parece que não há nenhum resultado direto correspondente a “@Ed_S useful” na pesquisa.
Algum stemming (redução à raiz) ou correspondência aproximada (fuzzy matching) excessivamente agressiva está ocorrendo?