Google индексирует одну и ту же страницу несколько раз: проблема с каноническими ссылками

Попробуйте ввести это в Google:

site:forum.hearingtracker.com/t/costco-kirkland-signature-9-0-product-information/45380

Вот результаты, которые вы увидите (48 результатов на одной странице):

Это ошибка дублирования контента, и её следует рассматривать как срочную проблему SEO для платформы Discourse (сейчас я использую версию v2.4.0.beta3 +4).

Я попытался понять, почему это происходит, и был удивлён, обнаружив, что при просмотре исходного кода страницы каноническая ссылка обновляется по мере прокрутки вниз:

Пример:
<link rel="canonical" href="https://forum.hearingtracker.com/t/costco-kirkland-signature-9-0-product-information/45380?page=2" />

Похоже, что логика здесь такова: длинные темы разбиваются на страницы, но поскольку это SPA с ленивой загрузкой, канонические ссылки ведут себя так, будто происходит традиционная пагинация. Честно говоря, я не уверен, какова логика такого подхода.

Кстати, лучшие практики SEO для пагинации заключаются в том, чтобы НЕ использовать одинаковые мета-описания и заголовки на второй странице и далее. Вот пример того, как я реализовал пагинацию на другой части своего сайта:

Вопросы:

  • Какова логика SEO при указании канонических ссылок на точки разбивки темы на страницы?
  • Если этот подход как-то обоснован, можем ли мы хотя бы убедиться, что заголовки и мета-данные не приводят к дублированию результатов в выдаче Google?

Это неверно.

Для поисковых роботов Discourse использует страницы по 20 постов, поэтому каждый пост может быть успешно проиндексирован. Для ботов SPA не существует.

В теме более 800 постов, поэтому это ожидаемо.

Почему? В чём именно проблема? Если вы выполните реальный поиск по слову, мы будем вести на страницу, где этого слова нет, или что-то в этом роде?

Извините, возможно, термин SPA здесь не совсем уместен. Я имел в виду, что тема на Discourse ведёт себя примерно как одностраничное приложение в том смысле, что пагинация происходит динамически…

Да, думаю, это логично. Я попытался найти какой-то текст на третьей странице, и Google привёл меня именно на неё, так что это хорошо. Точка на странице не совсем та, но, видимо, в данной ситуации это максимально близкий вариант.

Так что в ретроспективе, пожалуй, использование канонических ссылок для пагинации имеет смысл для длинных тем. Однако, если обратиться к лучшим практикам SEO, рекомендация заключается в том, чтобы не позволять Google индексировать пагинированный контент с одинаковыми заголовком и мета-описанием. Думаю, решение здесь — изменять заголовок и мета-данные на последующих страницах. См.:

Источник: SEO-Friendly Pagination: A Complete Best Practices Guide

Как это будет лучше для живых посетителей форума? Не кажется ли вам, что некоторые могут запутаться, если подумают, что переходят, например, на «страницу 2», а попадут в область «единственной страницы»? Не станут ли они тщетно искать навигацию по страницам, которой нет?

Я бы предпочел больше запутавшихся посетителей, чем меньше трафика из Google. Дублированный контент — это реальная проблема для SEO, а «лайки» под вашим комментарием от двух членов команды Discourse действительно сбивают с толку.

Не уверен, что это настолько серьёзно, чтобы называть это «реальной проблемой для SEO». Насколько мне известно, если не используется rel="canonical", поисковые системы сами определяют, какой URL результата лучше всего соответствует запросу, а не тот, который сайт предпочёл бы видеть в качестве основного (канонического).

Кажется, вы пропустили изображение, которое я разместил выше… Вот текст:

Джон Мюллер прокомментировал: «Мы не относимся к пагинации иначе. Мы рассматриваем их как обычные страницы».

Это означает, что Google больше не воспринимает пагинированные страницы как серию страниц, объединённых в единый контент, как это рекомендовалось ранее. Каждая пагинированная страница может конкурировать с корневой страницей за ранжирование.

Чтобы побудить Google показывать корневую страницу в результатах поиска (SERP) и избежать предупреждений «Дублирующие мета-описания» или «Дублирующие заголовки» в Google Search Console, внесите простое изменение в ваш код.

Если корневая страница имеет формулу:

Root page SERP

То последующие пагинированные страницы могут иметь формулу:

pagination page SERP

Названия URL и мета-описания этих пагинированных страниц намеренно сделаны менее оптимальными, чтобы отговорить Google от отображения этих результатов вместо корневой страницы.

Если даже после таких изменений пагинированные страницы всё ещё ранжируются в SERP, попробуйте другие традиционные методы внутренней SEO-оптимизации, такие как:

  • Снизить оптимизацию тегов H1 на пагинированных страницах.
  • Добавить полезный текст на корневую страницу, но не на пагинированные.
  • Добавить изображение категории с оптимизированным именем файла и тегом alt на корневую страницу, но не на пагинированные.

Ах, спасибо. Я упустил, что проблема не в дублировании контента, а в предупреждениях о дублировании заголовка и мета-описания.

По крайней мере, в Discourse это скорее «уведомления», чем предупреждения. Что-то вроде: «Если вы об этом не знали, проверьте, всё ли в порядке, и при необходимости исправьте». Вы можете спокойно игнорировать их, так как обсуждение в теме не должно уходить так далеко, чтобы то, что уместно для первых постов, перестало подходить для всех последующих постов в этой теме.

Например, если посты на «странице 1» посвящены «круглым красным виджетам», а к «странице 2» посты начинают касаться «квадратных зелёных шестерёнок», участников следует призывать придерживаться темы, либо обсуждение следует разделить на отдельные темы.