Отправляйте заголовок canonical вместо заголовка noindex

rrit · 06.Март.2022 17:07:02

Отправляйте заголовок ссылки canonical вместо заголовка noindex.

Отправка заголовка canonical, вероятно, даёт те же преимущества для бюджета сканирования, что и отправка заголовка noindex, но без SEO-последствий исключения URL-адресов, которые могут иметь обратные ссылки, из-за использования noindex.

См. также How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central | Documentation | Google for Developers

Если вы можете настроить свой сервер, вы можете использовать HTTP-заголовок rel=“canonical” (вместо HTML-тега), чтобы указать канонический URL-адрес для документа, поддерживаемого поисковой системой, включая не-HTML-документы, такие как файлы PDF.

Мы можем настроить наш сервер.
Указание «использовать HTTP-заголовок rel=“canonical” вместо HTML-тега» подчёркивает предпочтение решения с HTTP-заголовком?

Из #11553

Googlebot обрабатывает заголовки no-index очень элегантно. Он рекомендует оставлять как можно больше маршрутов открытыми и использует заголовки для высококачественных правил индексации.

Возможно, Google обрабатывает заголовки ссылок canonical так же элегантно, как и заголовки no-index.

sam · 08.Март.2022 03:36:05

У меня возникают трудности с этим. Судя по рекомендациям Google, это не имеет особого значения.

Рекомендации для HTTP-заголовка rel="canonical" такие же, как и для тега link с атрибутом rel="canonical".

Думаю, терять нечего, и возможно, сочетание noindex и rel canonical — это правильный рецепт от Google. Но я просто не уверен.

@Falco?

Falco · 08.Март.2022 03:48:25

Это откат недавно введенной настройки сайта к состоянию, когда она по сути не выполняет никаких действий (перемещение того, что мы отправляем как тег head, в заголовок; семантических изменений нет).

Я не хочу, чтобы это изменение было применено в таком виде.

rrit · 08.Март.2022 08:40:11

Для нового параметра по умолчанию SiteSetting.allow_indexing_non_canonical_urls = false реализация сейчас выглядит именно так, и так она и останется:

заголовок noindex
html-тег canonical (может быть проигнорирован)

Без патча и при SiteSetting.allow_indexing_non_canonical_urls = true:

– без заголовка –
html-тег canonical

С патчем и при SiteSetting.allow_indexing_non_canonical_urls = true:

заголовок: Link: <https://forum.example.com/t/test-example/1234>; rel="canonical"
html-тег canonical (может быть проигнорирован, но в любом случае совпадает с заголовком)

Вся идея этого подхода:
Установить canonical как http-заголовок, чтобы получить ту же выгоду, что и от http-заголовка noindex, а именно — более быстрый обход страниц.
Таким образом, это может сделать noindex устаревшим со всеми его неопределёнными последствиями.

Другой аспект сравнения noindex и canonical:

noindex — это больше, чем очень сильный сигнал не включать страницу в поисковый индекс.
Однако при использовании noindex содержимое страницы всё ещё обрабатывается Google Bot для извлечения ссылок (для отключения этого существует дополнительная опция nofollow).
canonical — это сильный сигнал о том, что контент, подлежащий обходу, находится по другому каноническому URL.
В случае, если Google Bot решит принять этот сигнал для одной страницы, высока вероятность, что он вообще не будет обрабатывать содержимое этой страницы, а займётся только каноническим URL.

Это «мысленный эксперимент». Он нигде не реализован, и я никогда не рекомендую его внедрять:

заголовок noindex
html meta-тег noindex (вместо: html link-тег canonical)

– ИЛИ –

– без заголовка –
html meta-тег noindex

Почему стоит или не стоит реализовывать это таким образом?

rrit · 08.Март.2022 09:26:16

Это изменение не является ‘no-op’:
Google может обрабатывать заголовки и HTML-контент на разных этапах своих очередей обработки. Отправляя заголовки, мы можем пропустить дальнейшие очереди обработки (например, очередь рендеринга), тем самым освободив бюджет сканирования для более важных страниц.

См. In-Depth Guide to How Google Search Works | Google Search Central | Documentation | Google for Developers

(Единственная найденная мной схема очереди обработки: Understand JavaScript SEO Basics | Google Search Central | Documentation | Google for Developers)

rrit · 20.Март.2022 14:10:49

Недавно был откатан изменение noindex:

Search engines now blocked from indexing non-canonical pages - #30 by sam
FEATURE: enable canonical url indexing by SamSaffron · Pull Request #16196 · discourse/discourse · GitHub

Пожалуйста, ещё раз взгляните на этот PR:

sam · 21.Март.2022 00:14:17

Не категорически против, но это кажется незначительным. Google сейчас постоянно скачивает контент, и я сомневаюсь, что сохранение разбора HTML действительно внесёт какие-либо ощутимые изменения.

Сначала нужно уделить внимание многим другим областям; микроданные, вероятно, требуют первоочередного внимания.

Тема		Ответов	Просм.
Search engines now blocked from indexing non-canonical pages Announcements seo	23	4512	15.03.2022
3 Pages Indexed in Google with same canonical tag Feature	1	544	08.11.2020
Homepage doesn't have canonical URL Feature	9	1985	04.01.2020
Canonical Meta Data Does Not Change Correctly in Discourse App when not loaded by a webcrawler Feature	5	971	01.08.2020
I want to Update rel=canonical href using Java Script Support	18	4356	02.08.2020

Отправляйте заголовок canonical вместо заголовка noindex

Связанные темы