Индексация в Google Search и Discourse

kirupa · 08.Июнь.2020 21:54:12

Всем привет!

Я прочитал различные сообщения о том, что краулер Google без проблем индексирует форумы на движке Discourse. Мой вопрос немного отличается. Считает ли Google каждую тему индексируемой «страницей»? Я спрашиваю об этом, потому что значительная часть тем на нашем форуме отсутствует в базе данных Google. Это подтверждается данными из консоли поиска Google:

Существует всего около 17 тысяч записей, тогда как на нашем форуме насчитывается несколько сотен тысяч тем (возможно, даже миллионы?). Ошибки в файле robots.txt относятся к страницам, которые действительно не должны индексироваться. Похоже, что краулер не посещает автоматически все старые темы так, как должен.

Есть ли настройка, которую мне нужно включить, чтобы обеспечить своевременную индексацию большего количества старых тем? Для контента выше линии сгиба индексация и результаты поиска Google работают отлично. Проблема затрагивает только темы, оказывающиеся ниже линии сгиба.

Спасибо,
Кирупа

Falco · 08.Июнь.2020 22:08:42

Для эксперимента я загрузил Meta через представление краулера, используя строку user-agent GoogleBot. Затем перешел к странице 666 нашего последнего списка, где находятся темы, последний раз обновленные в середине 2017 года, почти 3 года назад.

Одной из тем в списке является Глубокая интеграция Discourse в приложение Ionic. Я выполнил поиск в Google без авторизации, и запрос «integration discourse ionic» вывел эту тему на самое первое место!!

Meta — это «маленький» экземпляр с менее чем 30 тысячами тем, но все они, похоже, правильно проиндексированы. Поскольку это старый домен, и мы занимаем первое место по всем запросам, связанным с Discourse, мы получаем достаточный «карму» у GoogleBot, поэтому он работает на нашем домене достаточно долго, чтобы просканировать всё необходимое.

Ваш форум мигрировал со старого программного обеспечения на Discourse?

sam · 08.Июнь.2020 22:14:11

Если вам нужно ускорить индексацию, можно попробовать плагин карты сайта.

Стандартный обход обычно находит всё, но карта сайта может помочь ускорить индексацию.

Пожалуйста, поделитесь результатами, если попробуете.

Также можете ли вы привести 5 примеров уникального контента на вашем форуме, который на 100% отсутствует в Google?

Stranik · 08.Июнь.2020 22:46:01

Возможно, Google также учитывает активность по теме (если есть счетчик) или наличие в теме ссылок, по которым совершаются активные переходы. Google может не посещать определенные страницы, которые считает «неинтересными» для пользователей. Существует один прием, который обычно проверяется так. Это SEO. Разместите ссылку с какого-либо другого ресурса и перейдите по ней. Вам не нужно много, достаточно нескольких переходов. Обычно этого хватает, чтобы заинтересовать Google. Куда идут люди, туда идет и он.

На крупных сайтах Google недостаточно просто знать, что страница существует. Ему нужны дополнительные сигналы: активность, кликабельность, просмотры и т. д.

kirupa · 09.Июнь.2020 04:54:41

@Falco — да, форумы действительно прошли миграцию с vBulletin, но это произошло в конце 2014 года. Я удалил все публичные ссылки на старые форумы, поэтому риск того, что дублирующийся контент негативно повлияет на индексацию в поисковых системах, отсутствует.

@sam — да, вот несколько примеров:

JS Tip of the Day: Using Generators to Animate - web dev - kirupaForum (Недавняя)
The sinking Post - random - kirupaForum (Старая тема, но даже при прямом поиске с ограничением домена forum.kirupa.com результаты по этой теме не находятся)
JS Tip of the Day: Promises Block Rendering - web dev - kirupaForum (Google показывает список тем, но не саму тему)
https://forum.kirupa.com/t/etsy-flash-developer-position-working-closely-with-jared-tarbell-and-marcos-weskamp/226106 (Ещё одна старая тема)

Все эти посты я когда-либо публиковал в Twitter или на публичной странице в Facebook в течение последних трёх лет, так что это не что-то навсегда похороненное и скрытое.

Что касается плагина карты сайта, я попробую его использовать. Я опубликую любые данные, которые мне удастся найти. Спасибо всем, кто потратил время на помощь

С наилучшими пожеланиями,
Kirupa

Falco · 09.Июнь.2020 05:00:03

Это мой третий результат по запросу «js using generators animate example».

kirupa · 09.Июнь.2020 05:07:40

Возможно, это был не самый удачный пример для публикации сегодня, так как я вручную отправил его на индексацию несколько часов назад в качестве теста. Вот что один из моих администраторов форума увидел ранее по этому поисковому запросу 7 часов назад:

Вы правы, сейчас это один из топовых результатов. Интересно, имела ли к этому отношение ручная индексация.

РЕДАКТИРОВАНИЕ: Я только что настроил плагин Sitemap и отправлю карту сайта в Google для индексации!

neounix · 09.Июнь.2020 05:49:46

Привет, @kirupa,

К сведению: когда Google индексирует два сайта в одном домене, например, в вашем случае kirupa.com с похожим контентом, обычно происходит не «наказание» (это не совсем «наказание» в прямом смысле, а скорее «выбор канонической страницы»): алгоритм Google выбирает одну из страниц как каноническую, и именно она будет занимать более высокие позиции в результатах поиска. (Google может даже исключить из индекса страницу, которую он считает неканонической).

Google довольно четко заявлял, что идея «наказания за дублирующийся контент» в основном является мифом. Речь идет о «канонизации» и «выборе»:

Если на вашем сайте есть несколько страниц с largely идентичным контентом, существует несколько способов указать Google предпочтительный URL. (Это называется «канонизацией».) Подробнее о канонизации. (Ссылка 1)

Например, если вы оставите старый сайт активным вместе с новым, вы можете использовать тег link canonical, чтобы сообщить Google, что ваш новый сайт является каноническим, и Google отдаст приоритет именно ему.

Лучшее решение — разрешить поисковым системам сканировать эти URL-адреса, но пометить их как дубликаты с помощью элемента ссылки rel="canonical", инструмента обработки параметров URL или 301-редиректов. В случаях, когда дублирующий контент приводит к чрезмерному сканированию вашего сайта, вы также можете изменить настройку скорости сканирования в Search Console. (Ссылка 1)

Пример:

<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />

@kirupa, вы также спрашивали:

Считает ли Google каждую тему индексируемой «страницей»? Я спрашиваю об этом, потому что значительная часть тем на нашем форуме отсутствует в базе данных Google.

Для отличного (хоть и немного устаревшего) обсуждения Google и бесконечной прокрутки рекомендую официальный блог Google Webmaster Central (Ссылка 2):

https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

@kirupa, один из практических (не теоретических) способов проверить это — использовать GSC и посмотреть их «скриншот» того, как они отображают вашу страницу. Это легко сделать с помощью функции «Проверка на мобильную совместимость» в GSC (например); если вы возьмете очень длинный пост в Discourse, вы сможете проверить, какую часть этой страницы Google индексирует (считывает и индексирует). Существует множество мнений о бесконечной прокрутке и том, как Google индексирует такие страницы. Вы можете использовать GSC для проверки своих страниц и увидеть это своими глазами.

Согласно Мартину Шплитту из Google (см. Ссылку 3), 14 апреля 2020 года:

Шплитт привел пример новостного сайта, который полагается на бесконечную прокрутку (также называемую «ленивой загрузкой») для загрузки нового контента.

Это означает, что веб-страница, в данном случае главная страница, не загружает дополнительный контент, пока посетитель не прокрутит экран до самого низа.

Шплитт объясняет, почему это проблема: «Что Googlebot не делает? Он не прокручивает страницу».

Googlebot заходит на страницу и сканирует только то, что сразу видно.

Согласно словам Шплитта, Googlebot не может сканировать контент, который загружается только после прокрутки страницы.

Как уже упоминалось, @kirupa, вы можете проверить свои собственные страницы с помощью инструментов GSC, которые покажут вам снимок того, как Google видит (и индексирует) ваши страницы.

Согласно Шплитту из Google в апреле 2020 года: «Googlebot не прокручивает страницу» (перефразировано).

Что касается вопроса о «индексации поиском Google и Discourse», то каждый владелец сайта может легко использовать GSC, чтобы определить, как Googlebot индексирует конкретную страницу.

Моя рекомендация, и я надеюсь, что это хоть немного поможет, — использовать GSC (Google Search Console) для проверки ваших собственных страниц, если у вас возникнут вопросы о том, как Googlebot индексирует их.

Ссылки:

kirupa · 09.Июнь.2020 06:39:19

Спасибо за отличный ответ, @neounix! Я скоро изучу его и последую вашим рекомендациям

Снятие блокировки старых форумов (kirupaForum) и добавление канонического мета-тега на новый/активный форум — отличная идея. Я поэкспериментирую с этим на этой неделе.

Тем временем я отправил карту сайта с примерно 300 тысячами записей в Google Search Console.

neounix · 09.Июнь.2020 06:59:50

Уважаемый @kirupa,

Пожалуйста.

К вашему сведению:

Форумы Discourse уже автоматически добавляют канонический тег к темам.

Вот ссылка на ваш форум и исходный код, демонстрирующий это для одного из приведённых выше примеров:

Как видно, ваша страница на Discourse уже содержит канонический тег.

Один из «трюков» (не поддерживается официально, но возможен) — добавить тот же тег на ваши «старые форумы» (ссылку на новые форумы) или, как минимум, убедиться, что на старых форумах канонический тег отсутствует.

Однако, честно говоря, чтобы получить корректный ID темы для форумов Discourse в базе данных ваших старых форумов, потребуется определённая работа (мы делали это по другим причинам, поэтому знаю из собственного опыта, что это выполнимо, так как мы используем эту информацию на обоих форумах).

В Discourse существует таблица пользовательских полей постов, содержащая сопоставление между старым форумом (ID тем и постов); вы можете (если захотите) выгрузить эти данные из Discourse и добавить их в базу данных ваших старых форумов.

Затем вы сможете (если захотите, я не рекомендую какой-то конкретный подход) легко создать канонический тег на ваших старых форумах, указывающий на новые форумы Discourse, если это необходимо (в зависимости от ваших целей в SEO и выбранной стратегии).

Некоторые предпочитают использовать 301-редирект со страниц старого форума. Всё это зависит от вас и от того, как вы хотите управлять процессом! Имейте в виду: если вы решите использовать 301-редирект, вам также понадобятся сопоставления между ID тем (и постов) Discourse и ID тем и постов вашего старого форума.

Надеюсь, это краткое дополнение будет вам полезно, @kirupa.

С наилучшими пожеланиями и приятной работы!

Тема		Ответов	Просм.
Why isn't Google Indexing Discourse? SEO concerns Support seo	31	5698	01.06.2024
1 million Topics - Takes millions of days to get indexed without Sitemap in Robots Support	3	2663	20.02.2017
Google Not Indexing Discourse Forum – Sitemap Not Approved Support seo	4	310	01.04.2025
SEO - Pages crawled but not Indexed Support seo	4	221	23.09.2025
Removing the /2, /3, /4, etc links for each reply within a topic URL Development seo	33	4357	13.10.2024

Индексация в Google Search и Discourse

Связанные темы