После того как пройдет первоначальная паника (которая может охватить человека, обнаружившего, что Google почти полгода не обращал внимания на его сайт, а он даже не знал об этом!!),
я бы попытался перечислить здесь только те причины, которые связаны с кодом Discourse, то есть те, которые не могут быть исправлены ни Google, ни мной (насколько я могу судить), а только командой Discourse.
Ещё раньше, как я обнаружил эту проблему, всё можно пропустить:
Я прочитал почти всю эту тему на meta перед тем, как задать вопрос.
В августе 2024 года я заметил, что трафик на мой сайт снизился до 95%. Но я проигнорировал это, подумав, что, возможно, я недостаточно публикую.
Но сегодня я обнаружил, что какой бы термин я ни искал в Google, ограничивая поиск только моим сайтом: ***site:BathindaHelper.com jobs in bathinda***, выдача показывала НУЛЕВОЙ результат (единственный результат, который он показывает с моего сайта, на самом деле является лишь предложением создать Google Ads для отображения этого результата с моего сайта, что указывает на то, что мой сайт действительно был проиндексирован):
И наконец, я также проверил Google Analytics (возможно, переименован в Google Events), и там чётко видно, что с 17 июня 2024 года Google больше не направляет трафик на мой сайт.
Когда вы настроили свой сайт, включив принудительный вход или перестав показывать темы с уровнем TL0 и выше? Google может индексировать сайт только если он виден всем. Либо вы заблокировали пользовательских агентов Google.
Это тот же форум, где у вас возникли проблемы с DNS?
Я неправильно использовал слово «force». (Я имел в виду, что принуждал Google Search выдавать результаты поиска только с моего сайта BathindaHelper.com.)
Я не создавал свой сайт с помощью каких-либо аномальных/принудительных методов.
Я намеренно ничего не менял в отношении TL0+ или связанных с ним параметров.
В течение последних получаса я обнаружил, что (наряду с ещё несколькими мелкими проблемами) виновником, по-видимому, является мой файл robots.txt, но я пока не смог найти способ это исправить.
Я не помню проблем с DNS (возможно, вы имеете в виду события давнего прошлого?). Мой сайт работает нормально, за исключением того, что когда я или администратор выполняем жёсткую перезагрузку браузера, иногда загрузка занимает от 30 до 50 секунд, но после этого всё работает как обычно.
Спасибо за ответ.
Редактирование:
Я снял отметку с опции файла robots:
Но, насколько мне известно, в Discourse нет обычного файла robots.txt, как на большинстве сайтов; это реализовано через какое-то странное ruby-решение, и у администратора есть не так много настроек для его изменения. Кроме двух указанных настроек и возможности замедлить работу ботов.
Я отключил это после создания этой темы (примерно за 30 минут до этого). Хотя эта проблема существует уже 3 месяца. Но я не мог самостоятельно проверить, помогло ли это «отключение» исправить ошибку «индексации Google» или нет.
Я сомневаюсь: если я не отключу/не заблокирую сайты через Robots.txt, значит ли это, что ВСЕ САЙТЫ ДОПУЩЕНЫ? Или наоборот, если я не ВКЛЮЧУ сайты через Robots.txt, то все сайты будут БЛОКИРОВАНЫ от индексации?
Я совершенно забыл об этом. Вам нужно её выбрать. Если вы не используете эту опцию, то обязательно проверьте и отредактируйте robots.txt вручную, чтобы убедиться, что он направляет ботов так, как вам нужно.
Но вы можете посмотреть, нет ли там чего-то, что мешает Google.
Хорошо.
Это означает, что всем пользователям Discourse (обычно) потребуется указать/предоставить файл «Robots.txt».
Поэтому завтра я подробно изучу тему об этом (что и как должно быть в этом файле).
Во-вторых, если это не слишком сложно объяснить, не могли бы вы подсказать простой способ, с помощью которого я мог бы поиграть с настройками в панели администратора Discourse и одновременно в реальном времени проверять, может ли Google теперь свободно получать доступ к моему сайту (и индексировать его) или всё ещё получает ошибку «Access Forbidden - 403»?!
Редактирование: Хотя я сам сейчас/позже попробую найти похожие ресурсы в Google.
Ну, нет. Это означает, что обычно администраторы оставляют robots.txt включённым, чтобы избежать ручного вмешательства Но, конечно, список заблокированных ботов и тому подобное — это то, что администратор хочет изменить.
Вчера я добавил эти два домена: google и google.com, в качестве эксперимента. Я не знаю, имеет ли это приоритет над «Заблокированными агентами-краулерами» или нет. Также неясно, решило ли это мою проблему (поскольку Google сообщил, что поставил мой запрос на сканирование/индексирование в очередь, что может занять от 2 до 3 дней):
Однако, поскольку существует множество других (небольших) проблем, влияющих на индексацию в Google, о которых я упоминал в первом посте этой темы, я хотел бы оставить тему открытой.
Также буду признателен, если кто-то подскажет, что произойдет, если я заблокировал Crawer-1 сайта в разделе «Заблокированные пользовательские агенты» и одновременно разрешил его в разделе «Разрешенные пользовательские агенты».
А что будет, если я разрешил его в разделе «Разрешенные…», но заблокировал через Robots.txt. Что имеет приоритет?
О, возможно, именно поэтому я всё ещё получаю ошибку при попытке сканирования/индексации любых тем (кроме главной страницы) через Google Search Console:
Наконец-то!!! Похоже, я преодолел ошибку «Forbidden» для главной страницы и отдельных тематик: 90% успеха — ваша заслуга, а 10% — мои эксперименты. Большое спасибо.
После того как я удалил «Compatible» из списка «Заблокированные краулеры», я заметил примечание под другой настройкой, которое, как я глупо проигнорировал, по сути предупреждало пользователей: не заполняйте поле «Разрешенные User Agents краулеров», если вы не уверены в том, что делаете. Вот и всё! Игнорирование предупреждения, написанного ЗАГЛАВНЫМИ БУКВАМИ, привело к тому, что Google игнорировал мой сайт на протяжении нескольких месяцев и доставил мне столько проблем: