Почему Google не индексирует Discourse? Проблемы с SEO

Я не уверен, почему Google не индексирует контент нашего сообщества Discourse.

Посмотрите на эту страницу: Welcome to the Appsmith Community | Appsmith Community Portal

Заголовок довольно уникальный. Я бы предположил, что если я скопирую и вставлю заголовок в Google, первой ссылкой должен быть указанный выше URL.

Вместо этого я получаю следующее: это не только не первая ссылка, но она вообще не отображается.

Что я делаю не так?

Причин этого может быть очень-очень много.

Обходит ли Googlebot ваш сайт на самом деле? Проверьте по адресу mysite.com/admin/reports/web_crawlers.

Блокируется ли Googlebot или ограничивается его частота запросов? Проверьте по адресу mysite.com/admin/site_settings/category/security?filter=crawler%20user%20agents.

Добавили ли вы свой сайт в Google Search Console?

Пользователи с собственным хостингом также могут установить следующий плагин для помощи:

Плагин Sitemap также доступен в наших тарифах Business и Enterprise.

Скорее всего, ничего. По какой-то причине Google, похоже, присваивает запросу «Как сделать X» более высокий приоритет, чем самой теме с точно таким же заголовком. Почему? Я не уверен. Возможно, это решение принимается искусственным интеллектом на основе неизвестных закономерностей.

Иными словами, паттерны Google, о которых никто не знает :wink:

Ну, это для нас большая проблема. Мы разберёмся с этим, но тогда весь смысл теряется, ведь мы не можем ожидать, что люди будут «просматривать» каждую тему в сообществе. На практике большинство людей просто гуглят свою проблему (даже если они являются участниками сообщества), чтобы найти ответ.

В вашем случае действительно сложно сказать, что происходит с Google. Я позволил себе более внимательно изучить статистику вашего краулера, и на первый взгляд кажется, что краулер Google посещает ваше сообщество не очень часто. Вы уже пытались получить информацию из Google Search Console? Возможно, там есть какие-то данные, которые помогут разобраться в ситуации.

Я наблюдаю аналогичное поведение у небольшой части недавно созданных тем здесь, на Meta. Я обсудю это с нашей командой, чтобы выяснить, можем ли мы что-то сделать, или это просто характерно для Google. Я буду держать вас в курсе.

Также вы видели наши две статьи о SEO?

Это поведение Google началось несколько месяцев назад и, к сожалению, ухудшается.

В моём случае карта сайта не помогла…

Да, это первый вопрос, который я бы задал.

Что ж… наш сайт — appsmith.com, поэтому при отправке appsmith.com в GSC, надеюсь, будут проиндексированы все поддомены и подпапки appsmith.com, верно?

В любом случае сегодня я добавил community.appsmith.com (наш форум Discourse) в GSC, но не уверен, что это что-то изменит.

Добавьте поддомен как отдельный ресурс в GSC и отправьте отдельную карту сайта для поддомена.

@constantine

Ваш форум индексируется с мая 2021 года

Да :slight_smile:

Похоже, это действительно проблема. Ведь если Google не индексирует отдельные сообщения, то продолжать работу нет смысла — это сводит на нет саму цель создания сообщества (поскольку большинство пользователей, включая наших текущих, находят контент именно через Google, а не переходя по категориям на Discourse).

И эта проблема наблюдается не только у нас на Discourse, но и на самом форуме meta.discourse.org.

Чтобы продемонстрировать это, я поискал в Google заголовок этого сообщения и получил следующий результат:

В целом, для тех, кто использует сообщество Discourse как базу знаний (что, конечно, делают многие компании), это становится серьёзной проблемой.

Мы практически полностью следовали рекомендациям из двух блогов по SEO, ссылки на которые были приведены выше: наш контент богатый, детальный и высоко технический. Однако при поиске в Google он не отображается.

Поэтому у меня к вам, ребята, искренний вопрос: учитывая наш сценарий использования (создание базы знаний на основе запросов поддержки, что также может способствовать SEO) и видя эту проблему, вы бы рекомендовали нам начать планировать поиск альтернативы?

Вот выдержка из Google:

Индексация вашего контента Google определяется системными алгоритмами, которые учитывают спрос пользователей и проверки качества.

Также помните, что для пользователей уровня TL3 и выше отключены ссылки с атрибутом no follow.

Вот что стоит прочитать:

Иными словами, мои посты имеют больший «вес», чем ваши.

Извините, вы правы :+1:

@constantine Похоже, что Google отдает предпочтение страницам на поддомене https://docs.appsmith.com перед страницами на https://community.appsmith.com.

Большинство результатов поиска приходятся на docs.appsmith.com: Google Search

Предположение наугад: Предпочтение Google одному поддомену перед другим может быть обусловлено «основными показателями веб-жизнедеятельности» (Core Web Vitals), в частности наибольшим временем отрисовки контента (LCP).

Симулированный отчет на https://pagespeed.web.dev/ искажается из-за Discourse. Лучше проверить отчет в консоли поиска Google: «Опыт» → «Основные показатели веб-жизнедеятельности» для вашего домена.

Вот небольшая новость, коллеги: мы развернули Discourse на собственном хостинге, отправили карту сайта в Search Console, и теперь наш контент индексируется Google. Возможно, что-то не так с версией, размещённой в облаке?

Я не уверен, что это связано с картами сайта или облачным хостингом. Meta размещена на AWS, что совершенно отличается от места, где мы хостим многих наших других клиентов. В последнее время мы наблюдаем очень неравномерные результаты для Meta, а также для довольно большого количества сайтов на различных вариантах хостинга.

Я пытался настроить несколько вещей, чтобы посмотреть, поможет ли это.

  • Мы больше не следуем ссылкам на .rss, что спасает Google от сканирования вариантов темы /1, /2 и т. д., у которых есть общий канонический URL.

  • Мы явно указываем Google не следовать ссылкам внутри .rss-ленты на случай, если она получит rss-ленту.

  • Я временно отключил некоторые настройки канонизации, которые мы делали и которые показывали многообещающие результаты: Search engines now blocked from indexing non-canonical pages

Симптом, который я наблюдаю здесь на Meta, заключается в следующем:

  1. Google действительно сканирует ВСЕ содержимое, я вижу это в веб-журналах.
  2. Несмотря на сканирование страниц, около 50% последних новых тем на Meta не отображаются в индексе.

Это чрезвычайно беспокоит, Google дает нам очень мало информации о том, “почему?”.

Мой следующий шаг — получить больше данных и начать постоянный отчет. Мы, вероятно, будем использовать SerpApi, чтобы выяснить, какие страницы отсутствуют в Google, и попытаться найти закономерность.

Потому что Meta, то есть автор этого поста, не использует «почему» так, как хочет Google? Я провёл несколько экспериментов, и даже при неизменном контексте использование разных формулировок меняет результаты поиска. Как и ожидалось.

И ещё… личная история поиска — это большой и не всегда хороший фактор. Мои результаты довольно часто указывают не на Meta, потому что я ищу здесь, а не через Google.

Да, возможно, у Discourse действительно есть некоторые проблемы с Google, и они могут быть связаны с «статусом форума», когда Google реагирует на форумы иначе, чем на обычные сайты. Или же существуют технические проблемы — хотя это случается довольно редко.

Я сделал то же самое: после начального периода улучшения всё вернулось к игнорированию.
Сейчас уже два месяца, и даже новые темы в карте сайта не индексируются. Эта ситуация длится уже несколько месяцев, и мы потеряли много просмотров.

Мы хотим попробовать это в течение одного месяца, и если улучшений не будет, мы сменим программное обеспечение :sob:

Проверьте отчёт «Индекс» → «Покрытие» в Google Search Console для «пропущенных» страниц. Это может не показать «почему», но покажет «что происходит».

  1. Откройте «Индекс» → «Покрытие" для вашего домена.

  2. Выберите «Все отправленные страницы»

  3. Обращайте особое внимание на раздел «Исключено»

Описание различных стадий: Page indexing report - Search Console Help

Мое предположение о Google: статус «Обнаружено, но не проиндексировано» имеет установленный Google верхний предел — пока слишком много страниц находятся в этом состоянии, новые страницы будут попадать в индекс Google очень медленно.


О производительности сканера Google см. отчёт в Google Search Console: «Настройки» → «Статистика сканирования»

Особенно интересна временная шкала и динамика показателя «среднее время ответа»: более быстрое время ответа = больше запросов на сканирование.

Также интересен раздел «По цели»: