Как рассчитывается использование слов? Судя по тому, что я вижу у наших пользователей, в расчёт включаются:
заголовки тем и категорий для каждого сообщения, даже если тему создал не этот пользователь. У нескольких пользователей в топ-5 попали слова «shenanigans», «Dice» и «Mongerer». Это категории или ветки с огромным количеством сообщений, но сами слова на самом деле не так часто встречаются в содержании этих веток или в другом месте.
заголовки с эмодзи — пользователь добавляет ко всем своим сообщениям. В результате слова «Musical» и «Keyboard» попали в их топ-5 слов.
Мы используем данные поиска для нахождения постов пользователя, и в результате к этим данным добавляются заголовок и категория… при этом эмодзи, скорее всего, обрабатывается из :musical_keyboard: (ссылка в Markdown) в слова «musical» и «keyboard».
Думаю, нам потребуется дополнительная обработка или использование другого источника данных о постах, чтобы избежать этого… случай с категорией, вероятно, чаще встречается на сайтах, где люди создают множество коротких постов (или только изображений) в одной категории, так как в этом случае категория будет встречаться гораздо чаще по сравнению с другим содержимым поста.
Да, с этими результатами частотности слов что-то очень не так. Для меня «useful» — одно из пяти самых необычных слов в топе. Но, похоже, я никогда не использовал это слово: я поискал, получил множество «результатов», три из которых даже не содержат этого слова, а боковая панель discobot отмечает:
Похоже, что в поиске нет прямого результата, соответствующего «@Ed_S useful».
Неужели здесь применяется слишком агрессивная стеммизация или нечёткое сопоставление?