Открытие старых тем: выпить озеро через соломинку

TL;DR: Существуют ли плагины или настройки, которые добавляют подборку случайных тем в конец темы (не только самых последних), даже когда пользователь не авторизован, чтобы поисковый робот мог обнаружить все старые темы?

После объединения старого форума с текущим у меня возникла любопытная проблема с «доступностью» и обнаружением контента.

В представлениях «Категории» и «Последние» видны только самые свежие темы. Это похоже на поверхность озера. Представление содержит ограниченное количество постов, а бесконечная прокрутка затрудняет «погружение».

Наличие множества категорий расширяет «соломинку», но даже если у вас, скажем, 50 категорий и вы просматриваете по 100 тем в каждой, это всё равно всего 5000 тем.

Доступны лишь 1–2% тем, остальные скрыты «под водой».

Я думал, что файл sitemap.xml может помочь, но в настройках по умолчанию он раскрывает лишь горстку тем.

Огромные объёмы контента фактически недоступны для поисковых роботов.

Я хотел спросить: существуют ли плагины или настройки, которые добавляют подборку случайных тем в конец каждой темы (не только самых последних), даже когда пользователь не авторизован, чтобы поисковый робот мог обнаружить все старые темы?

Краулеры должны использовать карту сайта. Не производите случайный парсинг.

Вы рассматривали возможность поднятия старых тем? Это, кажется, более простой способ вернуть старые темы к жизни без создания плагинов или чего-то подобного. В настройках категории вы можете найти эти параметры:

Это хорошо работает здесь, на Meta, так как возвращает старые темы, которые затем можно «обновить» последней информацией или закрыть. Это также хороший способ курировать ваш контент. Вот пример из 2020 года, который был поднят:

Вопрос вкуса, насколько хороша система поднятия тем. Или делается ли это из-за ботов, а не для людей.

Поднятые здесь темы меня сильно раздражают. Не понимаю, зачем мне показывать устаревшие темы, если нет реальной необходимости закрывать их.

Подождите… что? Почему вы так думаете?

Я посмотрел на сгенерированную карту сайта, и в файле sitemap_1.xml там было только полмесяца постов. В sitemap_recent.xml их ещё меньше.

А вы проверили sitemap_2.xml и так далее?

Отсюда и слово «recent» в названии.

В этом и проблема: других страниц карты сайта, кроме sitemap_1.xml, нет, и в ней меньше 10 000 URL, указанных как максимум в настройках.

Я знаю, я упоминаю это на случай, если кто-то подумает, что я имею в виду именно этот файл.

Может, попробую как-то снова запустить генерацию карты сайта.

Все ли отсутствующие темы являются публичными? Можете ли вы опубликовать или отправить в ЛС ссылку на этот форум?

Подавляющее большинство тем являются публичными.

Я вижу, что в sitemap_1 содержится максимум 10 тысяч URL-адресов (сгенерирован чуть менее часа назад). Других страниц карты сайта нет. Я подожду 15 минут, когда должна произойти следующая запланированная генерация, чтобы посмотреть, появятся ли остальные страницы.

В Sidekiq я вижу, что задача регенерации выполнилась, но не понимаю, почему она создаёт только sitemap_1.xml, а не другие страницы.

Jobs::RegenerateSitemaps 48 минут назад OK 257 мс через 11 минут default

Я могу отправить вам ссылку на форум в личные сообщения, если запланированная через 11 минут задача регенерации не исправит ситуацию. Я также увеличил лимит до 50 тысяч URL-адресов, поэтому даже если другие страницы не будут сгенерированы, эта единственная страница будет содержать как минимум в пять раз больше URL-адресов.

РЕДАКТИРОВАНИЕ: Просто обновление. Задача выполнилась и создала новую увеличенную карту сайта на 50 тысяч URL-адресов, но снова только одну страницу.

РЕДАКТИРОВАНИЕ 2: Дав системе немного стабилизироваться, я с радостью сообщаю, что дополнительные страницы карты сайта были сгенерированы в ходе самой последней задачи. Не знаю, почему они не были созданы в предыдущих задачах Jobs.

Да, но «поднятие» тем неструктурировано и, по сути, остаётся тонкой соломинкой: даже если вы будете поднимать по 100 сообщений в день в 50 категориях (что также сделало бы форум бесполезным, так как вытеснило бы весь свежий контент), это всё равно даст вам те же 2% тем.

Кажется, я мог бы попробовать реализовать что-то вроде «предлагаемых тем» в конце каждой ветки, но с другим алгоритмом, смещённым в сторону исследования.

Вы упускаете один момент. Поднятие помогает только если:

  • в данный момент полезный бот сканирует страницу
  • полезный бот перейдет по таким ссылкам

В большинстве случаев этого не произойдет. Единственный результат — раздражённые пользователи, если только такие поднятия не происходят в версиях без JavaScript.

Но один вопрос: вы хотите делать всё это только потому, что ваши карты сайта могут быть повреждены, или вы не доверяете картам сайта?

Темы, связанные с ИИ, которые я нахожу, — лучший способ обнаружить старые темы.

Я думаю, что карта сайта решает проблему с краулером. Я создал отдельную тему, чтобы обсудить, как повысить удобство навигации и обнаруживаемость в этой ветке: Easy ways to navigate and browse large categories? - #2 by Jagster

Здесь есть некоторое пересечение с поисковой оптимизацией, но это немного разные вещи.

Влияние фиксированных карт сайта проявилось немедленно:

РЕДАКТИРОВАНИЕ: просто хочу сказать, что автоматическое создание подписей ИИ пугающе хорошо. Я не ожидал, что он так точно интерпретирует диаграмму!