Дегамайте свои экраны, Discourse Rewind 2025 уже здесь 💾

Как рассчитывается использование слов? Судя по тому, что я вижу у наших пользователей, в расчёт включаются:

  • заголовки тем и категорий для каждого сообщения, даже если тему создал не этот пользователь. У нескольких пользователей в топ-5 попали слова «shenanigans», «Dice» и «Mongerer». Это категории или ветки с огромным количеством сообщений, но сами слова на самом деле не так часто встречаются в содержании этих веток или в другом месте.
  • заголовки с эмодзи — пользователь добавляет :musical_keyboard: ко всем своим сообщениям. В результате слова «Musical» и «Keyboard» попали в их топ-5 слов.
2 лайка

Мы используем данные поиска для нахождения постов пользователя, и в результате к этим данным добавляются заголовок и категория… при этом эмодзи, скорее всего, обрабатывается из :musical_keyboard: (ссылка в Markdown) в слова «musical» и «keyboard».

Думаю, нам потребуется дополнительная обработка или использование другого источника данных о постах, чтобы избежать этого… случай с категорией, вероятно, чаще встречается на сайтах, где люди создают множество коротких постов (или только изображений) в одной категории, так как в этом случае категория будет встречаться гораздо чаще по сравнению с другим содержимым поста.

1 лайк

Да, с этими результатами частотности слов что-то очень не так. Для меня «useful» — одно из пяти самых необычных слов в топе. Но, похоже, я никогда не использовал это слово: я поискал, получил множество «результатов», три из которых даже не содержат этого слова, а боковая панель discobot отмечает:

Похоже, что в поиске нет прямого результата, соответствующего «@Ed_S useful».

Неужели здесь применяется слишком агрессивная стеммизация или нечёткое сопоставление?

1 лайк

Привет, выглядит отлично!

Проблема в том, что я не вижу никаких плагинов Rewind на странице /admin/plugins.
Версия 2026.1.0-latest (1734bdfef7)