Dégaussez vos écrans, Discourse Rewind 2025 est là 💾

Comment l’utilisation des mots est-elle calculée ? D’après ce que je vois de la part de nos utilisateurs, il semble que cela inclue :

  • les titres de sujets et de catégories pour chaque message, même si l’utilisateur n’a pas créé le sujet. Quelques utilisateurs ont « shenanigans », « Dice » et « Mongerer » dans leurs 5 premiers. Ce sont des catégories ou des fils de discussion qui contiennent beaucoup de messages, mais les mots ne sont pas vraiment utilisés autant dans le contenu des fils ou ailleurs.
  • les titres d’emojis - L’utilisateur ajoute :musical_keyboard: à tous ses messages. Musical et Keyboard figuraient dans ses 5 premiers mots.
2 « J'aime »

Nous utilisons nos données de recherche pour trouver les publications d’un utilisateur, et ces données finissent avec le titre et la catégorie ajoutés… et l’emoji est probablement traité à partir de :musical_keyboard: (sa référence markdown) en « musical » et « keyboard ».

Je pense que nous aurions besoin d’effectuer un traitement supplémentaire ou d’utiliser une source différente pour les données de publication afin d’éviter cela… le cas de la catégorie est probablement plus susceptible de se produire sur les sites où les gens font de nombreuses publications courtes (ou des publications uniquement d’images) dans la même catégorie, car dans ce cas, la catégorie apparaîtrait très souvent par rapport aux autres contenus de publication.

1 « J'aime »

Oui, quelque chose ne va vraiment pas avec ces résultats de fréquence de mots. Pour moi, « useful » (utile) est l’un des 5 mots les plus inhabituels. Mais il semble que je n’aie jamais utilisé ce mot : j’ai cherché, obtenu de nombreux « résultats » dont les trois premiers ne contiennent même pas le mot, et la barre latérale de discobot indique :

Il semble qu’il n’y ait aucun résultat direct correspondant à « @Ed_S useful » dans la recherche.

Y a-t-il un étymage (stemming) ou une correspondance floue trop agressive en cours ?

1 « J'aime »