Я прочитал различные сообщения о том, что краулер Google без проблем индексирует форумы на движке Discourse. Мой вопрос немного отличается. Считает ли Google каждую тему индексируемой «страницей»? Я спрашиваю об этом, потому что значительная часть тем на нашем форуме отсутствует в базе данных Google. Это подтверждается данными из консоли поиска Google:
Существует всего около 17 тысяч записей, тогда как на нашем форуме насчитывается несколько сотен тысяч тем (возможно, даже миллионы?). Ошибки в файле robots.txt относятся к страницам, которые действительно не должны индексироваться. Похоже, что краулер не посещает автоматически все старые темы так, как должен.
Есть ли настройка, которую мне нужно включить, чтобы обеспечить своевременную индексацию большего количества старых тем? Для контента выше линии сгиба индексация и результаты поиска Google работают отлично. Проблема затрагивает только темы, оказывающиеся ниже линии сгиба.
Для эксперимента я загрузил Meta через представление краулера, используя строку user-agent GoogleBot. Затем перешел к странице 666 нашего последнего списка, где находятся темы, последний раз обновленные в середине 2017 года, почти 3 года назад.
Одной из тем в списке является Глубокая интеграция Discourse в приложение Ionic. Я выполнил поиск в Google без авторизации, и запрос «integration discourse ionic» вывел эту тему на самое первое место!!
Meta — это «маленький» экземпляр с менее чем 30 тысячами тем, но все они, похоже, правильно проиндексированы. Поскольку это старый домен, и мы занимаем первое место по всем запросам, связанным с Discourse, мы получаем достаточный «карму» у GoogleBot, поэтому он работает на нашем домене достаточно долго, чтобы просканировать всё необходимое.
Ваш форум мигрировал со старого программного обеспечения на Discourse?
Возможно, Google также учитывает активность по теме (если есть счетчик) или наличие в теме ссылок, по которым совершаются активные переходы. Google может не посещать определенные страницы, которые считает «неинтересными» для пользователей. Существует один прием, который обычно проверяется так. Это SEO. Разместите ссылку с какого-либо другого ресурса и перейдите по ней. Вам не нужно много, достаточно нескольких переходов. Обычно этого хватает, чтобы заинтересовать Google. Куда идут люди, туда идет и он.
На крупных сайтах Google недостаточно просто знать, что страница существует. Ему нужны дополнительные сигналы: активность, кликабельность, просмотры и т. д.
@Falco — да, форумы действительно прошли миграцию с vBulletin, но это произошло в конце 2014 года. Я удалил все публичные ссылки на старые форумы, поэтому риск того, что дублирующийся контент негативно повлияет на индексацию в поисковых системах, отсутствует.
Все эти посты я когда-либо публиковал в Twitter или на публичной странице в Facebook в течение последних трёх лет, так что это не что-то навсегда похороненное и скрытое.
Что касается плагина карты сайта, я попробую его использовать. Я опубликую любые данные, которые мне удастся найти. Спасибо всем, кто потратил время на помощь
Возможно, это был не самый удачный пример для публикации сегодня, так как я вручную отправил его на индексацию несколько часов назад в качестве теста. Вот что один из моих администраторов форума увидел ранее по этому поисковому запросу 7 часов назад:
К сведению: когда Google индексирует два сайта в одном домене, например, в вашем случае kirupa.com с похожим контентом, обычно происходит не «наказание» (это не совсем «наказание» в прямом смысле, а скорее «выбор канонической страницы»): алгоритм Google выбирает одну из страниц как каноническую, и именно она будет занимать более высокие позиции в результатах поиска. (Google может даже исключить из индекса страницу, которую он считает неканонической).
Google довольно четко заявлял, что идея «наказания за дублирующийся контент» в основном является мифом. Речь идет о «канонизации» и «выборе»:
Если на вашем сайте есть несколько страниц с largely идентичным контентом, существует несколько способов указать Google предпочтительный URL. (Это называется «канонизацией».) Подробнее о канонизации. (Ссылка 1)
Например, если вы оставите старый сайт активным вместе с новым, вы можете использовать тег link canonical, чтобы сообщить Google, что ваш новый сайт является каноническим, и Google отдаст приоритет именно ему.
Лучшее решение — разрешить поисковым системам сканировать эти URL-адреса, но пометить их как дубликаты с помощью элемента ссылки rel="canonical", инструмента обработки параметров URL или 301-редиректов. В случаях, когда дублирующий контент приводит к чрезмерному сканированию вашего сайта, вы также можете изменить настройку скорости сканирования в Search Console. (Ссылка 1)
Считает ли Google каждую тему индексируемой «страницей»? Я спрашиваю об этом, потому что значительная часть тем на нашем форуме отсутствует в базе данных Google.
Для отличного (хоть и немного устаревшего) обсуждения Google и бесконечной прокрутки рекомендую официальный блог Google Webmaster Central (Ссылка 2):
@kirupa, один из практических (не теоретических) способов проверить это — использовать GSC и посмотреть их «скриншот» того, как они отображают вашу страницу. Это легко сделать с помощью функции «Проверка на мобильную совместимость» в GSC (например); если вы возьмете очень длинный пост в Discourse, вы сможете проверить, какую часть этой страницы Google индексирует (считывает и индексирует). Существует множество мнений о бесконечной прокрутке и том, как Google индексирует такие страницы. Вы можете использовать GSC для проверки своих страниц и увидеть это своими глазами.
Согласно Мартину Шплитту из Google (см. Ссылку 3), 14 апреля 2020 года:
Шплитт привел пример новостного сайта, который полагается на бесконечную прокрутку (также называемую «ленивой загрузкой») для загрузки нового контента.
Это означает, что веб-страница, в данном случае главная страница, не загружает дополнительный контент, пока посетитель не прокрутит экран до самого низа.
Шплитт объясняет, почему это проблема: «Что Googlebot не делает? Он не прокручивает страницу».
Googlebot заходит на страницу и сканирует только то, что сразу видно.
Согласно словам Шплитта, Googlebot не может сканировать контент, который загружается только после прокрутки страницы.
Как уже упоминалось, @kirupa, вы можете проверить свои собственные страницы с помощью инструментов GSC, которые покажут вам снимок того, как Google видит (и индексирует) ваши страницы.
Согласно Шплитту из Google в апреле 2020 года: «Googlebot не прокручивает страницу» (перефразировано).
Что касается вопроса о «индексации поиском Google и Discourse», то каждый владелец сайта может легко использовать GSC, чтобы определить, как Googlebot индексирует конкретную страницу.
Моя рекомендация, и я надеюсь, что это хоть немного поможет, — использовать GSC (Google Search Console) для проверки ваших собственных страниц, если у вас возникнут вопросы о том, как Googlebot индексирует их.
Спасибо за отличный ответ, @neounix! Я скоро изучу его и последую вашим рекомендациям
Снятие блокировки старых форумов (kirupaForum) и добавление канонического мета-тега на новый/активный форум — отличная идея. Я поэкспериментирую с этим на этой неделе.
Тем временем я отправил карту сайта с примерно 300 тысячами записей в Google Search Console.
Форумы Discourse уже автоматически добавляют канонический тег к темам.
Вот ссылка на ваш форум и исходный код, демонстрирующий это для одного из приведённых выше примеров:
Как видно, ваша страница на Discourse уже содержит канонический тег.
Один из «трюков» (не поддерживается официально, но возможен) — добавить тот же тег на ваши «старые форумы» (ссылку на новые форумы) или, как минимум, убедиться, что на старых форумах канонический тег отсутствует.
Однако, честно говоря, чтобы получить корректный ID темы для форумов Discourse в базе данных ваших старых форумов, потребуется определённая работа (мы делали это по другим причинам, поэтому знаю из собственного опыта, что это выполнимо, так как мы используем эту информацию на обоих форумах).
В Discourse существует таблица пользовательских полей постов, содержащая сопоставление между старым форумом (ID тем и постов); вы можете (если захотите) выгрузить эти данные из Discourse и добавить их в базу данных ваших старых форумов.
Затем вы сможете (если захотите, я не рекомендую какой-то конкретный подход) легко создать канонический тег на ваших старых форумах, указывающий на новые форумы Discourse, если это необходимо (в зависимости от ваших целей в SEO и выбранной стратегии).
Некоторые предпочитают использовать 301-редирект со страниц старого форума. Всё это зависит от вас и от того, как вы хотите управлять процессом! Имейте в виду: если вы решите использовать 301-редирект, вам также понадобятся сопоставления между ID тем (и постов) Discourse и ID тем и постов вашего старого форума.
Надеюсь, это краткое дополнение будет вам полезно, @kirupa.