Проблемы с неправильной структурой дискурса (или неправильным управлением сайтом), которые выявляет Google Search Console

После того как пройдет первоначальная паника (которая может охватить человека, обнаружившего, что Google почти полгода не обращал внимания на его сайт, а он даже не знал об этом!!),

я бы попытался перечислить здесь только те причины, которые связаны с кодом Discourse, то есть те, которые не могут быть исправлены ни Google, ни мной (насколько я могу судить), а только командой Discourse.

При нажатии на «Отчёт по индексации видео»:

А при нажатии на ссылку «Улучшения > Видео»:

Пожалуйста, помогите.

Ранее, когда я случайно обнаружил проблему (всё это можно пропустить)::

После нескольких месяцев потери пользователей сегодня я выяснил, что мой сайт заблокирован/запрещён для Google!!!

Ещё раньше, как я обнаружил эту проблему, всё можно пропустить:

Я прочитал почти всю эту тему на meta перед тем, как задать вопрос.

В августе 2024 года я заметил, что трафик на мой сайт снизился до 95%. Но я проигнорировал это, подумав, что, возможно, я недостаточно публикую.

Но сегодня я обнаружил, что какой бы термин я ни искал в Google, ограничивая поиск только моим сайтом: ***site:BathindaHelper.com jobs in bathinda***, выдача показывала НУЛЕВОЙ результат (единственный результат, который он показывает с моего сайта, на самом деле является лишь предложением создать Google Ads для отображения этого результата с моего сайта, что указывает на то, что мой сайт действительно был проиндексирован):


И наконец, я также проверил Google Analytics (возможно, переименован в Google Events), и там чётко видно, что с 17 июня 2024 года Google больше не направляет трафик на мой сайт.

Когда вы настроили свой сайт, включив принудительный вход или перестав показывать темы с уровнем TL0 и выше? Google может индексировать сайт только если он виден всем. Либо вы заблокировали пользовательских агентов Google.

Это тот же форум, где у вас возникли проблемы с DNS?

Вы спрашиваете из-за Site does not appear in google searches - #2 by Bathinda? Мне кажется, что ответ ниже отвечает на вопрос автора темы.

Я неправильно использовал слово «force». (Я имел в виду, что принуждал Google Search выдавать результаты поиска только с моего сайта BathindaHelper.com.)

  • Я не создавал свой сайт с помощью каких-либо аномальных/принудительных методов.
  • Я намеренно ничего не менял в отношении TL0+ или связанных с ним параметров.
  • В течение последних получаса я обнаружил, что (наряду с ещё несколькими мелкими проблемами) виновником, по-видимому, является мой файл robots.txt, но я пока не смог найти способ это исправить.
  • Я не помню проблем с DNS (возможно, вы имеете в виду события давнего прошлого?). Мой сайт работает нормально, за исключением того, что когда я или администратор выполняем жёсткую перезагрузку браузера, иногда загрузка занимает от 30 до 50 секунд, но после этого всё работает как обычно.

Спасибо за ответ.

Редактирование:
Я снял отметку с опции файла robots:

но я не могу сказать, сообщает ли сейчас Google Search Console, что всё в порядке:

Да, я совершенно упустил порядок. И теперь у нас есть демонстрация того, что может произойти, когда:

  • отвечают на старые темы
  • выходят за рамки темы
  • пользователь не читает темы :joy:

Да, это моя ошибка.

Проверьте эти настройки:

  • разрешённые пользовательские агенты поисковых роботов
  • заблокированные пользовательские агенты поисковых роботов

Но, насколько мне известно, в Discourse нет обычного файла robots.txt, как на большинстве сайтов; это реализовано через какое-то странное ruby-решение, и у администратора есть не так много настроек для его изменения. Кроме двух указанных настроек и возможности замедлить работу ботов.

Это было просто я и мои быстрые пальцы :man_facepalming:

Вы отключили это сейчас или до того, как индексация прекратилась?

Укажите в robots.txt, что вашему сайту разрешена индексация поисковыми системами.

Если вы не разрешаете поисковым системам индексировать ваш сайт, меня не удивляет, что они этого не делают.

Проверю и отчитаюсь.

Я отключил это после создания этой темы (примерно за 30 минут до этого). Хотя эта проблема существует уже 3 месяца. Но я не мог самостоятельно проверить, помогло ли это «отключение» исправить ошибку «индексации Google» или нет.

Я сомневаюсь: если я не отключу/не заблокирую сайты через Robots.txt, значит ли это, что ВСЕ САЙТЫ ДОПУЩЕНЫ? Или наоборот, если я не ВКЛЮЧУ сайты через Robots.txt, то все сайты будут БЛОКИРОВАНЫ от индексации?

Я совершенно забыл об этом. Вам нужно её выбрать. Если вы не используете эту опцию, то обязательно проверьте и отредактируйте robots.txt вручную, чтобы убедиться, что он направляет ботов так, как вам нужно.

Но вы можете посмотреть, нет ли там чего-то, что мешает Google.

Хорошо.
Это означает, что всем пользователям Discourse (обычно) потребуется указать/предоставить файл «Robots.txt».
Поэтому завтра я подробно изучу тему об этом (что и как должно быть в этом файле).

Во-вторых, если это не слишком сложно объяснить, не могли бы вы подсказать простой способ, с помощью которого я мог бы поиграть с настройками в панели администратора Discourse и одновременно в реальном времени проверять, может ли Google теперь свободно получать доступ к моему сайту (и индексировать его) или всё ещё получает ошибку «Access Forbidden - 403»?!

Редактирование: Хотя я сам сейчас/позже попробую найти похожие ресурсы в Google.

Ну, нет. Это означает, что обычно администраторы оставляют robots.txt включённым, чтобы избежать ручного вмешательства :wink: Но, конечно, список заблокированных ботов и тому подобное — это то, что администратор хочет изменить.

Можете проверить, какое у вас значение настройки blocked_crawler_user_agents?

  1. Эта настройка выглядит следующим образом (я ничего не менял):

  2. Вчера я добавил эти два домена: google и google.com, в качестве эксперимента. Я не знаю, имеет ли это приоритет над «Заблокированными агентами-краулерами» или нет. Также неясно, решило ли это мою проблему (поскольку Google сообщил, что поставил мой запрос на сканирование/индексирование в очередь, что может занять от 2 до 3 дней):

  3. Мой файл 'Robots.txt’ можно найти здесь.

Пожалуйста, сообщите, какое из этих трех настроек имеет приоритет, если все они содержат противоречивые параметры.

Это не должно повлиять, так как Google использует «Googlebot» и его вариации для сканирования:

На самом деле это имело решающее значение!

Спасибо всем большое за помощь в решении основной крупной проблемы с использованием этой настройки:

Однако, поскольку существует множество других (небольших) проблем, влияющих на индексацию в Google, о которых я упоминал в первом посте этой темы, я хотел бы оставить тему открытой.

Также буду признателен, если кто-то подскажет, что произойдет, если я заблокировал Crawer-1 сайта в разделе «Заблокированные пользовательские агенты» и одновременно разрешил его в разделе «Разрешенные пользовательские агенты».
А что будет, если я разрешил его в разделе «Разрешенные…», но заблокировал через Robots.txt. Что имеет приоритет?

Вы обязаны удалить compatible. Это блокирует практически всё, включая Googlebot. Вот почему:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

И блокировка Facebook — тоже не лучшая идея, если вы делитесь темами в Facebook.

Всё, что вы добавляете в блок-список, блокирует всех ботов, у которых это слово есть в строке user-agent. Поэтому будьте бдительны.

О, возможно, именно поэтому я всё ещё получаю ошибку при попытке сканирования/индексации любых тем (кроме главной страницы) через Google Search Console:

Но почему (даже когда compatible был заблокирован) только главная страница доступна для Google Search Console, как показано ниже:

Я только что удалил это правило для «Compatible» и сообщу о результатах.

Наконец-то!!! Похоже, я преодолел ошибку «Forbidden» для главной страницы и отдельных тематик: 90% успеха — ваша заслуга, а 10% — мои эксперименты. Большое спасибо.

После того как я удалил «Compatible» из списка «Заблокированные краулеры», я заметил примечание под другой настройкой, которое, как я глупо проигнорировал, по сути предупреждало пользователей: не заполняйте поле «Разрешенные User Agents краулеров», если вы не уверены в том, что делаете. Вот и всё! Игнорирование предупреждения, написанного ЗАГЛАВНЫМИ БУКВАМИ, привело к тому, что Google игнорировал мой сайт на протяжении нескольких месяцев и доставил мне столько проблем:


Для тех, кто пришёл в эту тему по ошибке «Access Forbidden-403» в Google Search Console:

  • В основном две вещи решили мои проблемы: удаление «Compatible» из списка «Заблокированные краулеры» и
  • Очистка (как и установлено по умолчанию) настройки «Разрешенные User Agents краулеров».

Тема останется открытой для других проблем с поиском Google (хотя ни одна из них не была столь критичной, как эта).