Привет, @kirupa,
К сведению: когда Google индексирует два сайта в одном домене, например, в вашем случае kirupa.com с похожим контентом, обычно происходит не «наказание» (это не совсем «наказание» в прямом смысле, а скорее «выбор канонической страницы»): алгоритм Google выбирает одну из страниц как каноническую, и именно она будет занимать более высокие позиции в результатах поиска. (Google может даже исключить из индекса страницу, которую он считает неканонической).
Google довольно четко заявлял, что идея «наказания за дублирующийся контент» в основном является мифом. Речь идет о «канонизации» и «выборе»:
Если на вашем сайте есть несколько страниц с largely идентичным контентом, существует несколько способов указать Google предпочтительный URL. (Это называется «канонизацией».) Подробнее о канонизации. (Ссылка 1)
Например, если вы оставите старый сайт активным вместе с новым, вы можете использовать тег link canonical, чтобы сообщить Google, что ваш новый сайт является каноническим, и Google отдаст приоритет именно ему.
Лучшее решение — разрешить поисковым системам сканировать эти URL-адреса, но пометить их как дубликаты с помощью элемента ссылки
rel="canonical", инструмента обработки параметров URL или 301-редиректов. В случаях, когда дублирующий контент приводит к чрезмерному сканированию вашего сайта, вы также можете изменить настройку скорости сканирования в Search Console. (Ссылка 1)
Пример:
<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />
@kirupa, вы также спрашивали:
Считает ли Google каждую тему индексируемой «страницей»? Я спрашиваю об этом, потому что значительная часть тем на нашем форуме отсутствует в базе данных Google.
Для отличного (хоть и немного устаревшего) обсуждения Google и бесконечной прокрутки рекомендую официальный блог Google Webmaster Central (Ссылка 2):
https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html
@kirupa, один из практических (не теоретических) способов проверить это — использовать GSC и посмотреть их «скриншот» того, как они отображают вашу страницу. Это легко сделать с помощью функции «Проверка на мобильную совместимость» в GSC (например); если вы возьмете очень длинный пост в Discourse, вы сможете проверить, какую часть этой страницы Google индексирует (считывает и индексирует). Существует множество мнений о бесконечной прокрутке и том, как Google индексирует такие страницы. Вы можете использовать GSC для проверки своих страниц и увидеть это своими глазами.
Согласно Мартину Шплитту из Google (см. Ссылку 3), 14 апреля 2020 года:
Шплитт привел пример новостного сайта, который полагается на бесконечную прокрутку (также называемую «ленивой загрузкой») для загрузки нового контента.
Это означает, что веб-страница, в данном случае главная страница, не загружает дополнительный контент, пока посетитель не прокрутит экран до самого низа.
Шплитт объясняет, почему это проблема: «Что Googlebot не делает? Он не прокручивает страницу».
Googlebot заходит на страницу и сканирует только то, что сразу видно.
Согласно словам Шплитта, Googlebot не может сканировать контент, который загружается только после прокрутки страницы.
Как уже упоминалось, @kirupa, вы можете проверить свои собственные страницы с помощью инструментов GSC, которые покажут вам снимок того, как Google видит (и индексирует) ваши страницы.
Согласно Шплитту из Google в апреле 2020 года: «Googlebot не прокручивает страницу» (перефразировано).
Что касается вопроса о «индексации поиском Google и Discourse», то каждый владелец сайта может легко использовать GSC, чтобы определить, как Googlebot индексирует конкретную страницу.
Моя рекомендация, и я надеюсь, что это хоть немного поможет, — использовать GSC (Google Search Console) для проверки ваших собственных страниц, если у вас возникнут вопросы о том, как Googlebot индексирует их.
Ссылки: