прежде всего: мы хотим выразить вам признательность за ваш дух и упорство в создании и поддержке Discourse. Для нас и наших участников сообщества всегда приятно пользоваться этой платформой.
Мы собрали несколько небольших замечаний, сделанных сегодня, и надеемся, что они окажутся полезными. С другой стороны, мы также будем рады услышать ваше мнение о любых возможных недопониманиях с нашей стороны.
С наилучшими пожеланиями,
Андреас.
Введение
При исследовании поведения нашего размещённого экземпляра Discourse по адресу https://community.crate.io/ в отношении его файла определения robots.txt[1], мы обнаружили, что Googlebot может не соблюдать заданные настройки так, как предполагалось.
Оценка
Давайте проверим это на примере robots.txt на Meta [2], используя URL моего профиля https://meta.discourse.org/u/amotl/.
Разницу можно быстро заметить, сравнив результаты, полученные с помощью бесплатного валидатора robots.txt:
Таким образом, мы склонны полагать, что Googlebot в настоящее время полностью игнорирует правила, определённые в разделе User-agent: *[3], и только соблюдает правила в разделе User-agent: Googlebot[4].
Если я правильно понял, ответ не такой простой. Если один пользователь отправил ссылку через Gmail, Googlebot не соблюдает robots.txt. То же самое происходит, если ссылка где-то размещена (обратные ссылки) и для Googlebot она выглядит как обычная повседневная ссылка.
Ещё раз: robots.txt — это всего лишь запрос.
Кроме того, многие боты идентифицируют себя как Googlebot, и истинную картину можно установить только по IP-адресу.
Следовательно, для страниц, которые действительно не должны индексироваться, Googlebot получает дополнительный HTTP-заголовок X-Robots-Tag: noindex. См.:
Для ваших собственных доменов вы можете использовать Google Search Console → Проверить URL
Затем попробуйте добавить URL профиля пользователя для индексации, например https://www.example.com/u/jacob
Я перенёс это в Support, спасибо за ваш восхитительно составленный отчёт об ошибке.
Нам потребовалось много времени, чтобы тщательно настроить наши правила, чтобы угодить Google. Тег x-robots-tag с параметром noindex поддерживается неравномерно, но это отраслевой стандарт. Проблема с простым запретом индексации заключалась в том, что по каким-то причинам при определённых условиях страницы могли попасть в индекс Google, а затем их не было возможности легко удалить, так как индексация была запрещена. Немного проблема курицы и яйца.
большое спасибо за то, что поделились дополнительными деталями по этому вопросу. Как всегда, я поражен тем, с каким энтузиазмом вы вкладываетесь в каждую мелочь Discourse.
Признаюсь, я не знал об этом до сих пор. Ещё раз спасибо!
Отлично. Спасибо. Если это теперь стало широко принятым стандартом, есть ли надежда, что некоторые бесплатные валидаторы robots.txt тоже начнут в будущем учитывать это?
Вам известно о каких-либо инструментах, которые уже сегодня, помимо чтения файла robots.txt, выполняют дополнительные проверки заголовков, как это делает функция Inspect URL в Google Search Console? Это, вероятно, помогло бы людям избежать той же путаницы, с которой столкнулись мы.