Google изменил обработку robots.txt в Discourse?

Моя доска уже несколько недель связана с моим сайтом, и я отправил URL в Google. Я получил предупреждение о no index, но, похоже, оно касается только страниц профилей, что хорошо.

Однако в Google пока ничего не появляется. Нужно ли мне что-то сделать на стороне доски или достаточно просто подождать, пока Google её просканирует?

Возможно, стоит попробовать https://search.google.com/search-console/?

Кажется, что страницы постов заблокированы robots.txt, но я этого не настраивал. Есть ли в Discourse параметр, который нужно изменить, чтобы открыть доступ? Спасибо.

В настройках сайта есть параметр «Разрешить индексацию в robots.txt». Найдите его в настройках вашего сайта и убедитесь, что он включён (по умолчанию он включён).

Спасибо, Сэм, эта настройка отмечена, всё ли верно?

Извините, я запутался, похоже, что заблокированные URL — это эквиваленты RSS-каналов.

Полагаю, остаётся только подождать, пока Google обновит или просканирует сайт.

Да, это постоянно повторяется и вызывает проблемы с поддержкой.

Googlebot немного раздражает. В robots.txt нельзя указать, что вы не хотите, чтобы что-то индексировалось. Мы работаем над исправлением, чтобы удовлетворить Googlebot, но его внедрение займет некоторое время.

  • Мы говорим Googlebot в robots.txt: «Эй… не индексируйте все страницы .rss на сайте».

  • Googlebot находит где-то ссылку на файл .rss на сайте.

  • Затем Googlebot жалуется администраторам сайта, что на сайте есть файл .rss, но он не может понять, что делать со ссылкой, так как ему не разрешено индексировать его. Иногда он даже включает этот контент в результаты поиска.

  • Администраторы сайта затем жалуются в Meta.

Наше общее решение здесь — просто разрешить Googlebot обходить все страницы сайта и использовать канонические ссылки и подсказки индексации в заголовках HTTP, чтобы направить его к успеху.

Я работаю над этим вместе с @jomaxro, и мы уже добились хороших результатов.

(к сведению @codinghorror)

Спасибо за обновление, Сэм, всё это имеет смысл, и я понимаю твои трудности. Я не SEO-специалист, но раньше управлял более крупными сайтами и работал с командами по SEO; на форумах это часто было очень непросто!

Чтобы прояснить ситуацию: это не имеет ничего общего с тем, что это форум для обсуждений. Это связано с … интересным … подходом Google к файлу robots.txt. Подробнее: Robots.txt Introduction and Guide | Google Search Central  |  Documentation  |  Google for Developers

Страница, заблокированная robots.txt, всё ещё может быть проиндексирована, если на неё есть ссылки с других сайтов
Хотя Google не будет сканировать или индексировать контент, заблокированный через robots.txt, мы всё же можем найти и проиндексировать запрещённый URL, если на него есть ссылки в других местах интернета. В результате адрес URL и, возможно, другая общедоступная информация, такая как анкор-текст ссылок на страницу, всё ещё могут появляться в результатах поиска Google. Чтобы надёжно предотвратить появление вашего URL в результатах поиска Google, вам следует защитить файлы на сервере паролем или использовать мета-тег noindex или заголовок ответа (либо полностью удалить страницу).

Мы уже давно включали страницы, которые не хотим индексировать, в файл robots.txt по умолчанию, который есть на каждом сайте Discourse. Ранее это работало отлично. В какой-то момент в прошлом этого стало недостаточно: Google решил индексировать страницы, на которые есть ссылки из других мест, даже если они запрещены через robots.txt.

Поэтому в начале этого года мы начали тестировать добавление заголовков noindex на определённые страницы. Это работало бы отлично, если бы не возник конфликт между robots.txt и заголовком. Подробнее: Block Search Indexing with noindex | Google Search Central  |  Documentation  |  Google for Developers

Важно! Чтобы директива noindex была эффективной, страница не должна быть заблокирована файлом robots.txt. Если страница заблокирована robots.txt, сканер никогда не увидит директиву noindex, и страница всё ещё может появиться в результатах поиска, например, если на неё ссылаются другие страницы.

Это приводит нас к сегодняшнему дню. Мы тестируем удаление определённых страниц из robots.txt. Мы должны быть осторожны, так как все эти изменения основаны на документации Google: мы уверены, что всё в порядке с Googlebot, но также необходимо проверить других крупных сканеров, чтобы убедиться, что мы не создадим проблем для них.

Цитирую для акцента. Поведение Google изменилось, а не мы, поэтому нам потребуется немного времени, чтобы адаптироваться.

Привет, Джефф, всё это для меня понятно, и я всё осознаю. Я просто хотел перепроверить, не мог ли я сам случайно скрыть страницы обсуждений из своего сайта в Google? Главная страница и категории отображаются в поиске Google, но ни одна страница обсуждений не появляется, и это уже длится несколько месяцев. Вот мой сайт: https://community.jackwallington.com/

Я считаю, что мы со своей стороны внесли все необходимые изменения для адаптации к недавним изменениям в поведении Google. Возможно, @jomaxro сможет подтвердить? Вам следует использовать последнюю версию Discourse.

Я не уверен, нужно будет проверить. Насколько я помню, мы вносили некоторые ручные изменения в robots.txt (только на Meta) во время тестирования…

Судя по discourse/app/controllers/robots_txt_controller.rb at main · discourse/discourse · GitHub, изменения локальные (только для Meta). Я исправлю это. У нас всё ещё запущено несколько длительных тестов, но я в этом уверен.

Необходимые изменения внесены в соответствии с

Неужели у меня где-то стоит no index для страниц постов? Хотя Google говорит, что теперь он это игнорирует

Если вы не установили плагин для добавления такого заголовка, я не могу придумать способа, как он мог бы появиться. Google не игнорирует заголовок noindex. Google игнорирует robots.txt, когда другие сайты ссылаются на вашу страницу. Однако при сканировании Google учитывает robots.txt, поэтому в приведённом выше коммите записи в robots.txt удалены в пользу ранее добавленных заголовков noindex.

Рекомендую зарегистрироваться в Google Search Console, чтобы самостоятельно проверить, что видит Google. Возможно, существует другая проблема, из-за которой темы не индексируются.

Спасибо, Джошуа. Google Search Console, похоже, в порядке и показывает, что все темы добавлены. Очень странно: при поиске сами страницы тем не отображаются, а главная и страницы категорий — да.

Я отменю это и сделаю это условие явным для Googlebot.

Googlebot — очень умный краулер, но многие другие краулеры не так умны.

Справедливо. Обратите внимание, что есть более поздний коммит, который также нужно отменить.

Я создал этот PR, чтобы решить эту проблему:

Google сохраняет своё особое правило, а мы выпускаем обновление с улучшенной защитой для различных ботов, которые не так продвинуты. robots.txt по умолчанию теперь выглядит так:

# См. http://www.robotstxt.org/robotstxt.html для документации по использованию файла robots.txt
#
User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /


User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tags
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /tags/*.rss
Disallow: /c/*.rss


User-agent: Googlebot
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*