Google изменил обработку robots.txt в Discourse?

jackjjw · 11.Май.2020 15:37:06

Моя доска уже несколько недель связана с моим сайтом, и я отправил URL в Google. Я получил предупреждение о no index, но, похоже, оно касается только страниц профилей, что хорошо.

Однако в Google пока ничего не появляется. Нужно ли мне что-то сделать на стороне доски или достаточно просто подождать, пока Google её просканирует?

satonotdead · 11.Май.2020 16:30:22

Возможно, стоит попробовать https://search.google.com/search-console/?

jackjjw · 12.Май.2020 07:00:14

Кажется, что страницы постов заблокированы robots.txt, но я этого не настраивал. Есть ли в Discourse параметр, который нужно изменить, чтобы открыть доступ? Спасибо.

sam · 12.Май.2020 07:11:45

В настройках сайта есть параметр «Разрешить индексацию в robots.txt». Найдите его в настройках вашего сайта и убедитесь, что он включён (по умолчанию он включён).

jackjjw · 12.Май.2020 07:13:48

Спасибо, Сэм, эта настройка отмечена, всё ли верно?

Извините, я запутался, похоже, что заблокированные URL — это эквиваленты RSS-каналов.

Полагаю, остаётся только подождать, пока Google обновит или просканирует сайт.

sam · 12.Май.2020 07:22:09

Да, это постоянно повторяется и вызывает проблемы с поддержкой.

Googlebot немного раздражает. В robots.txt нельзя указать, что вы не хотите, чтобы что-то индексировалось. Мы работаем над исправлением, чтобы удовлетворить Googlebot, но его внедрение займет некоторое время.

Мы говорим Googlebot в robots.txt: «Эй… не индексируйте все страницы .rss на сайте».
Googlebot находит где-то ссылку на файл .rss на сайте.
Затем Googlebot жалуется администраторам сайта, что на сайте есть файл .rss, но он не может понять, что делать со ссылкой, так как ему не разрешено индексировать его. Иногда он даже включает этот контент в результаты поиска.
Администраторы сайта затем жалуются в Meta.

Наше общее решение здесь — просто разрешить Googlebot обходить все страницы сайта и использовать канонические ссылки и подсказки индексации в заголовках HTTP, чтобы направить его к успеху.

Я работаю над этим вместе с @jomaxro, и мы уже добились хороших результатов.

(к сведению @codinghorror)

jackjjw · 12.Май.2020 07:29:22

Спасибо за обновление, Сэм, всё это имеет смысл, и я понимаю твои трудности. Я не SEO-специалист, но раньше управлял более крупными сайтами и работал с командами по SEO; на форумах это часто было очень непросто!

jomaxro · 12.Май.2020 16:59:50

Чтобы прояснить ситуацию: это не имеет ничего общего с тем, что это форум для обсуждений. Это связано с … интересным … подходом Google к файлу robots.txt. Подробнее: Robots.txt Introduction and Guide | Google Search Central | Documentation | Google for Developers

Страница, заблокированная robots.txt, всё ещё может быть проиндексирована, если на неё есть ссылки с других сайтов
Хотя Google не будет сканировать или индексировать контент, заблокированный через robots.txt, мы всё же можем найти и проиндексировать запрещённый URL, если на него есть ссылки в других местах интернета. В результате адрес URL и, возможно, другая общедоступная информация, такая как анкор-текст ссылок на страницу, всё ещё могут появляться в результатах поиска Google. Чтобы надёжно предотвратить появление вашего URL в результатах поиска Google, вам следует защитить файлы на сервере паролем или использовать мета-тег noindex или заголовок ответа (либо полностью удалить страницу).

Мы уже давно включали страницы, которые не хотим индексировать, в файл robots.txt по умолчанию, который есть на каждом сайте Discourse. Ранее это работало отлично. В какой-то момент в прошлом этого стало недостаточно: Google решил индексировать страницы, на которые есть ссылки из других мест, даже если они запрещены через robots.txt.

Поэтому в начале этого года мы начали тестировать добавление заголовков noindex на определённые страницы. Это работало бы отлично, если бы не возник конфликт между robots.txt и заголовком. Подробнее: Block Search Indexing with noindex | Google Search Central | Documentation | Google for Developers

Важно! Чтобы директива noindex была эффективной, страница не должна быть заблокирована файлом robots.txt. Если страница заблокирована robots.txt, сканер никогда не увидит директиву noindex, и страница всё ещё может появиться в результатах поиска, например, если на неё ссылаются другие страницы.

Это приводит нас к сегодняшнему дню. Мы тестируем удаление определённых страниц из robots.txt. Мы должны быть осторожны, так как все эти изменения основаны на документации Google: мы уверены, что всё в порядке с Googlebot, но также необходимо проверить других крупных сканеров, чтобы убедиться, что мы не создадим проблем для них.

codinghorror · 13.Май.2020 07:04:13

Цитирую для акцента. Поведение Google изменилось, а не мы, поэтому нам потребуется немного времени, чтобы адаптироваться.

jackjjw · 25.Июнь.2020 13:28:35

Привет, Джефф, всё это для меня понятно, и я всё осознаю. Я просто хотел перепроверить, не мог ли я сам случайно скрыть страницы обсуждений из своего сайта в Google? Главная страница и категории отображаются в поиске Google, но ни одна страница обсуждений не появляется, и это уже длится несколько месяцев. Вот мой сайт: https://community.jackwallington.com/

codinghorror · 25.Июнь.2020 17:20:23

Я считаю, что мы со своей стороны внесли все необходимые изменения для адаптации к недавним изменениям в поведении Google. Возможно, @jomaxro сможет подтвердить? Вам следует использовать последнюю версию Discourse.

jomaxro · 25.Июнь.2020 17:27:07

Я не уверен, нужно будет проверить. Насколько я помню, мы вносили некоторые ручные изменения в robots.txt (только на Meta) во время тестирования…

jomaxro · 25.Июнь.2020 17:32:05

Судя по discourse/app/controllers/robots_txt_controller.rb at main · discourse/discourse · GitHub, изменения локальные (только для Meta). Я исправлю это. У нас всё ещё запущено несколько длительных тестов, но я в этом уверен.

jomaxro · 25.Июнь.2020 19:15:31

Необходимые изменения внесены в соответствии с

github.com/discourse/discourse

FIX: Remove paths from robots.txt in favor of noindex header

committed 05:55PM - 25 Jun 20 UTC

jomaxro

+0 -13

Google no longer supports the use of robots.txt to block indexing. See https://s…upport.google.com/webmasters/answer/6062608 and https://support.google.com/webmasters/answer/93710 Previous commits have added the `noindex` header to appropriate pages, now we need to remove the paths from robots.txt so the pages can be crawled. Follow up to: 13f229808a22db9e1032832a313ab701b66614c8 b6765aac4b532c026418a7ffd9effd0741ab8a37 676be3a853454a33cf627c3d570feb37d3bb0bfd 07b728c5e557c9aae91c51f3eaac5c32d479f2a2 c94e6a9a66757ea48d99e3ee8d880523871cb6f4

jackjjw · 25.Июнь.2020 19:31:32

Неужели у меня где-то стоит no index для страниц постов? Хотя Google говорит, что теперь он это игнорирует

jomaxro · 25.Июнь.2020 19:40:26

Если вы не установили плагин для добавления такого заголовка, я не могу придумать способа, как он мог бы появиться. Google не игнорирует заголовок noindex. Google игнорирует robots.txt, когда другие сайты ссылаются на вашу страницу. Однако при сканировании Google учитывает robots.txt, поэтому в приведённом выше коммите записи в robots.txt удалены в пользу ранее добавленных заголовков noindex.

Рекомендую зарегистрироваться в Google Search Console, чтобы самостоятельно проверить, что видит Google. Возможно, существует другая проблема, из-за которой темы не индексируются.

jackjjw · 25.Июнь.2020 19:54:23

Спасибо, Джошуа. Google Search Console, похоже, в порядке и показывает, что все темы добавлены. Очень странно: при поиске сами страницы тем не отображаются, а главная и страницы категорий — да.

sam · 22.Декабрь.2020 05:17:41

Я отменю это и сделаю это условие явным для Googlebot.

Googlebot — очень умный краулер, но многие другие краулеры не так умны.

jomaxro · 22.Декабрь.2020 05:22:29

Справедливо. Обратите внимание, что есть более поздний коммит, который также нужно отменить.

sam · 22.Декабрь.2020 06:01:49

Я создал этот PR, чтобы решить эту проблему:

github.com/discourse/discourse

FEATURE: explicitly ban outlier traffic sources in robots.txt (#11553)

master ← crawl-less

merged 09:51PM - 22 Dec 20 UTC

SamSaffron

+27 -9

Googlebot handles no-index headers very elegantly. It advises to leave as many r…outes as possible open and uses headers for high fidelity rules regarding indexes. Discourse adds special `x-robot-tags` noindex headers to users, badges, groups, search and tag routes. Following up on b52143feff8c32f2 we now have it so Googlebot gets special handling. Rest of the crawlers get a far more aggressive disallow list to protect against excessive crawling.

Google сохраняет своё особое правило, а мы выпускаем обновление с улучшенной защитой для различных ботов, которые не так продвинуты. robots.txt по умолчанию теперь выглядит так:

# См. http://www.robotstxt.org/robotstxt.html для документации по использованию файла robots.txt
#
User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /


User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tags
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /tags/*.rss
Disallow: /c/*.rss


User-agent: Googlebot
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*

Тема		Ответов	Просм.
Pages listed in the robots.txt are crawled and indexed by Google Support	18	3400	30.07.2019
Google notification to remove "noindex" statements from robots.txt Support	7	2498	30.07.2019
Google complaining – Indexed, though blocked by robots.txt Support	22	2622	13.12.2019
Issues Google Search Console is throwing at me for wrong discourse structure (or some for wrong administration of my site) Support	18	277	18.12.2024
Generic rules in "robots.txt" not picked up by Googlebot Support	5	1038	03.03.2022

Google изменил обработку robots.txt в Discourse?

Связанные темы