Отправляйте заголовок canonical вместо заголовка noindex

Отправляйте заголовок ссылки canonical вместо заголовка noindex.

Отправка заголовка canonical, вероятно, даёт те же преимущества для бюджета сканирования, что и отправка заголовка noindex, но без SEO-последствий исключения URL-адресов, которые могут иметь обратные ссылки, из-за использования noindex.


См. также How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers

Если вы можете настроить свой сервер, вы можете использовать HTTP-заголовок rel=“canonical” (вместо HTML-тега), чтобы указать канонический URL-адрес для документа, поддерживаемого поисковой системой, включая не-HTML-документы, такие как файлы PDF.

  • :+1: Мы можем настроить наш сервер.
  • Указание «использовать HTTP-заголовок rel=“canonical” вместо HTML-тега» подчёркивает предпочтение решения с HTTP-заголовком?

Из #11553

Googlebot обрабатывает заголовки no-index очень элегантно. Он рекомендует оставлять как можно больше маршрутов открытыми и использует заголовки для высококачественных правил индексации.

Возможно, Google обрабатывает заголовки ссылок canonical так же элегантно, как и заголовки no-index.

У меня возникают трудности с этим. Судя по рекомендациям Google, это не имеет особого значения.

Рекомендации для HTTP-заголовка rel="canonical" такие же, как и для тега link с атрибутом rel="canonical".

Думаю, терять нечего, и возможно, сочетание noindex и rel canonical — это правильный рецепт от Google. Но я просто не уверен.

@Falco?

Это откат недавно введенной настройки сайта к состоянию, когда она по сути не выполняет никаких действий (перемещение того, что мы отправляем как тег head, в заголовок; семантических изменений нет).

Я не хочу, чтобы это изменение было применено в таком виде.

Для нового параметра по умолчанию SiteSetting.allow_indexing_non_canonical_urls = false реализация сейчас выглядит именно так, и так она и останется:

  • заголовок noindex
  • html-тег canonical (может быть проигнорирован)

Без патча и при SiteSetting.allow_indexing_non_canonical_urls = true:

  • – без заголовка –
  • html-тег canonical

С патчем и при SiteSetting.allow_indexing_non_canonical_urls = true:

  • заголовок: Link: <https://forum.example.com/t/test-example/1234>; rel="canonical"
  • html-тег canonical (может быть проигнорирован, но в любом случае совпадает с заголовком)

Вся идея этого подхода:
Установить canonical как http-заголовок, чтобы получить ту же выгоду, что и от http-заголовка noindex, а именно — более быстрый обход страниц.
Таким образом, это может сделать noindex устаревшим со всеми его неопределёнными последствиями.

Другой аспект сравнения noindex и canonical:

  • noindex — это больше, чем очень сильный сигнал не включать страницу в поисковый индекс.
    Однако при использовании noindex содержимое страницы всё ещё обрабатывается Google Bot для извлечения ссылок (для отключения этого существует дополнительная опция nofollow).
  • canonical — это сильный сигнал о том, что контент, подлежащий обходу, находится по другому каноническому URL.
    В случае, если Google Bot решит принять этот сигнал для одной страницы, высока вероятность, что он вообще не будет обрабатывать содержимое этой страницы, а займётся только каноническим URL.

Это «мысленный эксперимент». Он нигде не реализован, и я никогда не рекомендую его внедрять:

  • заголовок noindex
  • html meta-тег noindex (вместо: html link-тег canonical)

– ИЛИ –

  • – без заголовка –
  • html meta-тег noindex

Почему стоит или не стоит реализовывать это таким образом?

Это изменение не является ‘no-op’:
Google может обрабатывать заголовки и HTML-контент на разных этапах своих очередей обработки. Отправляя заголовки, мы можем пропустить дальнейшие очереди обработки (например, очередь рендеринга), тем самым освободив бюджет сканирования для более важных страниц.

См. In-Depth Guide to How Google Search Works | Google Search Central  |  Documentation  |  Google for Developers

(Единственная найденная мной схема очереди обработки: Understand JavaScript SEO Basics | Google Search Central  |  Documentation  |  Google for Developers)

Недавно был откатан изменение noindex:

Пожалуйста, ещё раз взгляните на этот PR:

Не категорически против, но это кажется незначительным. Google сейчас постоянно скачивает контент, и я сомневаюсь, что сохранение разбора HTML действительно внесёт какие-либо ощутимые изменения.

Сначала нужно уделить внимание многим другим областям; микроданные, вероятно, требуют первоочередного внимания.