Desmagnetize suas telas, Discourse Rewind 2025 chegou 💾

Como o uso de palavras é calculado? Pelo que estou vendo de nossos usuários, parece incluir

  • títulos de tópicos e categorias para cada postagem, mesmo que o tópico não tenha sido criado pelo usuário. Alguns usuários têm “shenanigans”, “Dice” e “Mongerer” entre suas 5 principais palavras. Estas são categorias ou tópicos que têm muitas postagens, mas as palavras não são realmente usadas com tanta frequência no conteúdo dos tópicos ou em outros lugares.
  • títulos de emojis - O usuário adiciona :musical_keyboard: a todas as suas postagens. Musical e Keyboard estavam entre suas 5 principais palavras.
2 curtidas

Usamos nossos dados de pesquisa para encontrar as postagens de um usuário, e esses dados acabam com o título e a categoria adicionados… e o emoji provavelmente é processado de :musical_keyboard: (sua referência markdown) para “musical” e “keyboard” (teclado).

Acho que precisaríamos fazer algum processamento adicional ou usar uma fonte diferente para os dados da postagem para evitar isso… o caso da categoria é provavelmente mais provável de acontecer em sites onde as pessoas fazem muitas postagens curtas (ou apenas com imagens) na mesma categoria, porque nesse caso a categoria apareceria com muita frequência em relação a outro conteúdo da postagem.

1 curtida

Sim, algo está muito errado com esses resultados de frequência de palavras. Para mim, “useful” (útil) é uma das 5 principais palavras incomuns. Mas parece que eu nunca usei essa palavra: pesquisei, obtive muitos “resultados”, sendo que os três primeiros nem sequer contêm a palavra, e a barra lateral do discobot observa:

Parece que não há nenhum resultado direto correspondente a “@Ed_S useful” na pesquisa.

Algum stemming (redução à raiz) ou correspondência aproximada (fuzzy matching) excessivamente agressiva está ocorrendo?

1 curtida