字词使用量是如何计算的?从我从用户那里看到的情况来看,它似乎包括:
- 每个帖子的主题和分类标题,即使该主题不是由用户创建的。有几位用户的词频前五名包括“shenanigans”、“Dice”和“Mongerer”。这些是包含大量帖子的分类或主题,但这些词语在主题内容或其他地方的实际使用频率并不高。
- 表情符号标题 - 用户在所有帖子中都添加了
。Musical 和 Keyboard 出现在他们词频前五的词语中。
字词使用量是如何计算的?从我从用户那里看到的情况来看,它似乎包括:
我们使用搜索数据来查找用户的帖子,该数据最终会添加标题和类别……表情符号很可能是从 :musical_keyboard:(其 Markdown 引用)处理成“musical”和“keyboard”。
我认为我们需要进行一些额外的处理或使用不同的源来获取帖子数据,以避免这种情况……在人们在同一类别中发布许多短帖子(或仅图片帖子)的网站上,类别情况可能更常发生,因为在这种情况下,类别相对于其他帖子内容出现的频率会非常高。
是的,这些词频结果出了大问题。“useful”对我来说是排名前五的不常用词之一。但看起来我从未使用过这个词:我搜索了,得到了很多“结果”,其中前三个甚至不包含这个词,而且 discobot 侧边栏提示:
搜索中似乎没有与“@Ed_S useful”直接匹配的结果。
是不是有什么过于激进的词干提取或模糊匹配在起作用?