Индексация в Google Search и Discourse

Привет, @kirupa,

К сведению: когда Google индексирует два сайта в одном домене, например, в вашем случае kirupa.com с похожим контентом, обычно происходит не «наказание» (это не совсем «наказание» в прямом смысле, а скорее «выбор канонической страницы»): алгоритм Google выбирает одну из страниц как каноническую, и именно она будет занимать более высокие позиции в результатах поиска. (Google может даже исключить из индекса страницу, которую он считает неканонической).

Google довольно четко заявлял, что идея «наказания за дублирующийся контент» в основном является мифом. Речь идет о «канонизации» и «выборе»:

Если на вашем сайте есть несколько страниц с largely идентичным контентом, существует несколько способов указать Google предпочтительный URL. (Это называется «канонизацией».) Подробнее о канонизации. (Ссылка 1)

Например, если вы оставите старый сайт активным вместе с новым, вы можете использовать тег link canonical, чтобы сообщить Google, что ваш новый сайт является каноническим, и Google отдаст приоритет именно ему.

Лучшее решение — разрешить поисковым системам сканировать эти URL-адреса, но пометить их как дубликаты с помощью элемента ссылки rel="canonical", инструмента обработки параметров URL или 301-редиректов. В случаях, когда дублирующий контент приводит к чрезмерному сканированию вашего сайта, вы также можете изменить настройку скорости сканирования в Search Console. (Ссылка 1)

Пример:

<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />

@kirupa, вы также спрашивали:

Считает ли Google каждую тему индексируемой «страницей»? Я спрашиваю об этом, потому что значительная часть тем на нашем форуме отсутствует в базе данных Google.

Для отличного (хоть и немного устаревшего) обсуждения Google и бесконечной прокрутки рекомендую официальный блог Google Webmaster Central (Ссылка 2):

https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

@kirupa, один из практических (не теоретических) способов проверить это — использовать GSC и посмотреть их «скриншот» того, как они отображают вашу страницу. Это легко сделать с помощью функции «Проверка на мобильную совместимость» в GSC (например); если вы возьмете очень длинный пост в Discourse, вы сможете проверить, какую часть этой страницы Google индексирует (считывает и индексирует). Существует множество мнений о бесконечной прокрутке и том, как Google индексирует такие страницы. Вы можете использовать GSC для проверки своих страниц и увидеть это своими глазами.

Согласно Мартину Шплитту из Google (см. Ссылку 3), 14 апреля 2020 года:

Шплитт привел пример новостного сайта, который полагается на бесконечную прокрутку (также называемую «ленивой загрузкой») для загрузки нового контента.

Это означает, что веб-страница, в данном случае главная страница, не загружает дополнительный контент, пока посетитель не прокрутит экран до самого низа.

Шплитт объясняет, почему это проблема: «Что Googlebot не делает? Он не прокручивает страницу».

Googlebot заходит на страницу и сканирует только то, что сразу видно.

Согласно словам Шплитта, Googlebot не может сканировать контент, который загружается только после прокрутки страницы.

Как уже упоминалось, @kirupa, вы можете проверить свои собственные страницы с помощью инструментов GSC, которые покажут вам снимок того, как Google видит (и индексирует) ваши страницы.

Согласно Шплитту из Google в апреле 2020 года: «Googlebot не прокручивает страницу» (перефразировано).

Что касается вопроса о «индексации поиском Google и Discourse», то каждый владелец сайта может легко использовать GSC, чтобы определить, как Googlebot индексирует конкретную страницу.

Моя рекомендация, и я надеюсь, что это хоть немного поможет, — использовать GSC (Google Search Console) для проверки ваших собственных страниц, если у вас возникнут вопросы о том, как Googlebot индексирует их.

Ссылки:

  1. How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers

  2. https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

  3. Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems