Проблемы с неправильной структурой дискурса (или неправильным управлением сайтом), которые выявляет Google Search Console

Bathinda · 17.Декабрь.2024 09:22:17

После того как пройдет первоначальная паника (которая может охватить человека, обнаружившего, что Google почти полгода не обращал внимания на его сайт, а он даже не знал об этом!!),

я бы попытался перечислить здесь только те причины, которые связаны с кодом Discourse, то есть те, которые не могут быть исправлены ни Google, ни мной (насколько я могу судить), а только командой Discourse.

Блокировка Robots.txt :

image396×173 7.54 KB
Ошибка сервера 5xx

Уведомление по электронной почте из Google Search Console о том, что страницы были проиндексированы из-за ошибки сервера. (Подпись сгенерирована ИИ)378×352 14.9 KB
Контент шире экрана и Элементы для клика расположены слишком близко друг к другу (на мобильном экране)

Уведомление по электронной почте о новых проблемах мобильной юзабельности, обнаруженных на сайте, с рекомендациями по их устранению для обеспечения наилучшего опыта и охвата в Google Search. (Подпись сгенерирована ИИ)398×538 27.1 KB
Проблемы со структурированными данными форума обсуждений:

image385×244 12.9 KB
Проблемы индексации видео, но без дополнительных деталей:

На изображении показано уведомление о проблемах индексации видео на сайте. (Подпись сгенерирована ИИ)376×512 25.1 KB

При нажатии на «Отчёт по индексации видео»:

А при нажатии на ссылку «Улучшения > Видео»:

Пожалуйста, помогите.

Bathinda · 17.Декабрь.2024 10:49:14

Ранее, когда я случайно обнаружил проблему (всё это можно пропустить)::

После нескольких месяцев потери пользователей сегодня я выяснил, что мой сайт заблокирован/запрещён для Google!!!

Ещё раньше, как я обнаружил эту проблему, всё можно пропустить:

Я прочитал почти всю эту тему на meta перед тем, как задать вопрос.

В августе 2024 года я заметил, что трафик на мой сайт снизился до 95%. Но я проигнорировал это, подумав, что, возможно, я недостаточно публикую.

Но сегодня я обнаружил, что какой бы термин я ни искал в Google, ограничивая поиск только моим сайтом: ***site:BathindaHelper.com jobs in bathinda***, выдача показывала НУЛЕВОЙ результат (единственный результат, который он показывает с моего сайта, на самом деле является лишь предложением создать Google Ads для отображения этого результата с моего сайта, что указывает на то, что мой сайт действительно был проиндексирован):

И наконец, я также проверил Google Analytics (возможно, переименован в Google Events), и там чётко видно, что с 17 июня 2024 года Google больше не направляет трафик на мой сайт.

Jagster · 17.Декабрь.2024 11:58:50

Когда вы настроили свой сайт, включив принудительный вход или перестав показывать темы с уровнем TL0 и выше? Google может индексировать сайт только если он виден всем. Либо вы заблокировали пользовательских агентов Google.

Это тот же форум, где у вас возникли проблемы с DNS?

Moin · 17.Декабрь.2024 12:02:04

Вы спрашиваете из-за Site does not appear in google searches - #2 by Bathinda? Мне кажется, что ответ ниже отвечает на вопрос автора темы.

Bathinda · 17.Декабрь.2024 12:05:22

Я неправильно использовал слово «force». (Я имел в виду, что принуждал Google Search выдавать результаты поиска только с моего сайта BathindaHelper.com.)

Я не создавал свой сайт с помощью каких-либо аномальных/принудительных методов.
Я намеренно ничего не менял в отношении TL0+ или связанных с ним параметров.
В течение последних получаса я обнаружил, что (наряду с ещё несколькими мелкими проблемами) виновником, по-видимому, является мой файл robots.txt, но я пока не смог найти способ это исправить.
Я не помню проблем с DNS (возможно, вы имеете в виду события давнего прошлого?). Мой сайт работает нормально, за исключением того, что когда я или администратор выполняем жёсткую перезагрузку браузера, иногда загрузка занимает от 30 до 50 секунд, но после этого всё работает как обычно.

Спасибо за ответ.

Редактирование:
Я снял отметку с опции файла robots:

но я не могу сказать, сообщает ли сейчас Google Search Console, что всё в порядке:

Jagster · 17.Декабрь.2024 12:12:53

Да, я совершенно упустил порядок. И теперь у нас есть демонстрация того, что может произойти, когда:

отвечают на старые темы
выходят за рамки темы
пользователь не читает темы

Да, это моя ошибка.

Jagster · 17.Декабрь.2024 12:24:14

Проверьте эти настройки:

разрешённые пользовательские агенты поисковых роботов
заблокированные пользовательские агенты поисковых роботов

Но, насколько мне известно, в Discourse нет обычного файла robots.txt, как на большинстве сайтов; это реализовано через какое-то странное ruby-решение, и у администратора есть не так много настроек для его изменения. Кроме двух указанных настроек и возможности замедлить работу ботов.

Это было просто я и мои быстрые пальцы

Moin · 17.Декабрь.2024 12:34:20

Вы отключили это сейчас или до того, как индексация прекратилась?

Укажите в robots.txt, что вашему сайту разрешена индексация поисковыми системами.

Если вы не разрешаете поисковым системам индексировать ваш сайт, меня не удивляет, что они этого не делают.

Bathinda · 17.Декабрь.2024 13:45:01

Проверю и отчитаюсь.

Я отключил это после создания этой темы (примерно за 30 минут до этого). Хотя эта проблема существует уже 3 месяца. Но я не мог самостоятельно проверить, помогло ли это «отключение» исправить ошибку «индексации Google» или нет.

Я сомневаюсь: если я не отключу/не заблокирую сайты через Robots.txt, значит ли это, что ВСЕ САЙТЫ ДОПУЩЕНЫ? Или наоборот, если я не ВКЛЮЧУ сайты через Robots.txt, то все сайты будут БЛОКИРОВАНЫ от индексации?

Jagster · 17.Декабрь.2024 13:49:53

Я совершенно забыл об этом. Вам нужно её выбрать. Если вы не используете эту опцию, то обязательно проверьте и отредактируйте robots.txt вручную, чтобы убедиться, что он направляет ботов так, как вам нужно.

Но вы можете посмотреть, нет ли там чего-то, что мешает Google.

Bathinda · 17.Декабрь.2024 13:54:15

Хорошо.
Это означает, что всем пользователям Discourse (обычно) потребуется указать/предоставить файл «Robots.txt».
Поэтому завтра я подробно изучу тему об этом (что и как должно быть в этом файле).

Во-вторых, если это не слишком сложно объяснить, не могли бы вы подсказать простой способ, с помощью которого я мог бы поиграть с настройками в панели администратора Discourse и одновременно в реальном времени проверять, может ли Google теперь свободно получать доступ к моему сайту (и индексировать его) или всё ещё получает ошибку «Access Forbidden - 403»?!

Редактирование: Хотя я сам сейчас/позже попробую найти похожие ресурсы в Google.

Jagster · 17.Декабрь.2024 13:57:28

Ну, нет. Это означает, что обычно администраторы оставляют robots.txt включённым, чтобы избежать ручного вмешательства Но, конечно, список заблокированных ботов и тому подобное — это то, что администратор хочет изменить.

nat · 18.Декабрь.2024 09:38:13

Можете проверить, какое у вас значение настройки blocked_crawler_user_agents?

Bathinda · 18.Декабрь.2024 11:06:41

Эта настройка выглядит следующим образом (я ничего не менял):

Скриншот страницы настроек с опциями для блокировки и замедления конкретных агентов-краулеров. (Подпись сгенерирована ИИ)808×252 20.9 KB
Вчера я добавил эти два домена: google и google.com, в качестве эксперимента. Я не знаю, имеет ли это приоритет над «Заблокированными агентами-краулерами» или нет. Также неясно, решило ли это мою проблему (поскольку Google сообщил, что поставил мой запрос на сканирование/индексирование в очередь, что может занять от 2 до 3 дней):

Скриншот страницы настроек с опциями для разрешенных и заблокированных агентов-краулеров, включая функции поиска или создания. (Подпись сгенерирована ИИ)755×163 6.2 KB
Мой файл 'Robots.txt’ можно найти здесь.

Пожалуйста, сообщите, какое из этих трех настроек имеет приоритет, если все они содержат противоречивые параметры.

Firepup650 · 18.Декабрь.2024 11:42:09

Это не должно повлиять, так как Google использует «Googlebot» и его вариации для сканирования:

Bathinda · 18.Декабрь.2024 11:49:39

На самом деле это имело решающее значение!

Спасибо всем большое за помощь в решении основной крупной проблемы с использованием этой настройки:

Однако, поскольку существует множество других (небольших) проблем, влияющих на индексацию в Google, о которых я упоминал в первом посте этой темы, я хотел бы оставить тему открытой.

Также буду признателен, если кто-то подскажет, что произойдет, если я заблокировал Crawer-1 сайта в разделе «Заблокированные пользовательские агенты» и одновременно разрешил его в разделе «Разрешенные пользовательские агенты».
А что будет, если я разрешил его в разделе «Разрешенные…», но заблокировал через Robots.txt. Что имеет приоритет?

Jagster · 18.Декабрь.2024 12:20:14

Вы обязаны удалить compatible. Это блокирует практически всё, включая Googlebot. Вот почему:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

И блокировка Facebook — тоже не лучшая идея, если вы делитесь темами в Facebook.

Всё, что вы добавляете в блок-список, блокирует всех ботов, у которых это слово есть в строке user-agent. Поэтому будьте бдительны.

Bathinda · 18.Декабрь.2024 12:24:03

О, возможно, именно поэтому я всё ещё получаю ошибку при попытке сканирования/индексации любых тем (кроме главной страницы) через Google Search Console:

Но почему (даже когда compatible был заблокирован) только главная страница доступна для Google Search Console, как показано ниже:

Я только что удалил это правило для «Compatible» и сообщу о результатах.

Bathinda · 18.Декабрь.2024 12:41:31

Наконец-то!!! Похоже, я преодолел ошибку «Forbidden» для главной страницы и отдельных тематик: 90% успеха — ваша заслуга, а 10% — мои эксперименты. Большое спасибо.

После того как я удалил «Compatible» из списка «Заблокированные краулеры», я заметил примечание под другой настройкой, которое, как я глупо проигнорировал, по сути предупреждало пользователей: не заполняйте поле «Разрешенные User Agents краулеров», если вы не уверены в том, что делаете. Вот и всё! Игнорирование предупреждения, написанного ЗАГЛАВНЫМИ БУКВАМИ, привело к тому, что Google игнорировал мой сайт на протяжении нескольких месяцев и доставил мне столько проблем:

Для тех, кто пришёл в эту тему по ошибке «Access Forbidden-403» в Google Search Console:

В основном две вещи решили мои проблемы: удаление «Compatible» из списка «Заблокированные краулеры» и
Очистка (как и установлено по умолчанию) настройки «Разрешенные User Agents краулеров».

Тема останется открытой для других проблем с поиском Google (хотя ни одна из них не была столь критичной, как эта).

Тема		Ответов	Просм.
Why isn't Google Indexing Discourse? SEO concerns Support seo	31	5698	01.06.2024
Needing to edit robots.txt file - where is it? Support	40	7833	15.07.2019
Google complaining – Indexed, though blocked by robots.txt Support	22	2622	13.12.2019
Malformed robots.txt causing issues with indexing Support	7	1904	14.09.2019
Sitelinks in Google disappearing Community Building	26	1596	27.01.2023

Проблемы с неправильной структурой дискурса (или неправильным управлением сайтом), которые выявляет Google Search Console

Ранее, когда я случайно обнаружил проблему (всё это можно пропустить)::

Ещё раньше, как я обнаружил эту проблему, всё можно пропустить:

Для тех, кто пришёл в эту тему по ошибке «Access Forbidden-403» в Google Search Console:

Связанные темы