Некорректный robots.txt вызывает проблемы с индексацией

Всем привет,

Мы только что обнаружили, что наш форум Discourse не индексируется Google (мы помним, что примерно год назад он индексировался), и сейчас пытаемся это исправить. Какие настройки нам нужно убедиться, что они установлены правильно?

Вот что я уже сделал:

  1. Я убедился, что параметр “Разрешить индексацию в robots.txt” отмечен.

  2. Я добавил следующие домены в “Исключить домены rel nofollow”:

    • grakn.ai (наш основной домен сайта)
    • discuss.grakn.ai (наш домен форума Discourse)
  3. Я убедился, что параметр “Добавлять rel nofollow к пользовательскому контенту” снят.

  4. Я добавил Googlebot в “Белый список агентов-краулеров”.

Не упустил ли я какие-то другие настройки, которые нужно установить?

В Google Search Console показано, что discuss.grakn.ai всё ещё не может быть просканирован, так как заблокирован файлом robots.txt — см. скриншот ниже.

Заранее спасибо за помощь!!!

Админ → Настройки → Включить Robots.txt

Ваш файл Robots.txt для форума доступен по адресу: https://discuss.grakn.ai/robots.txt

Войдите в Google Webmaster Tools и проверьте: https://www.google.com/webmasters/tools/robots-testing-tool

При настройке по умолчанию всё работает отлично. Вы меняли эти параметры при первоначальной установке?

В файле robots.txt в середине есть этот текст, поэтому могут возникнуть проблемы с краулерами:

User-agent: *
Disallow: /
Noindex: /

Однако Google индексирует страницы:

Возможно, Googlebot обращается к вашим правилам, специфичным для Google, а в инструментах для веб-мастеров вам выводится предупреждение о подстановочном знаке.

(Я не уверен, какие настройки приводят к такому выводу robots.txt.)

Да.

  1. Перейдите по ссылке: https://discuss.grakn.ai/admin/customize/robots

  2. Удалите:

    User-agent: *
    Disallow: /
    Noindex: /

  3. Откройте Инструменты для вебмастеров Google: https://www.google.com/webmasters/tools/robots-testing-tool

Выберите подтверждённый ресурс и снова отправьте файл robots.txt в Google.

Должно сработать.

Наконец, удаление следующего блока решило проблему.

User-agent: *
Disallow: /
Noindex: /

Огромное спасибо, @j127 и @tohaitrieu!!!

Google Search Console теперь показывает, что discuss.grakn.ai добавлен в очередь на индексацию.

С уважением!

Я совершенно не понимаю, как вы пришли к такому состоянию. Вы меняли настройки сайта по умолчанию, связанные с индексацией?

Я тоже не совсем понимаю, как мы пришли к описанному выше состоянию, @codinghorror. Я являюсь администратором сайта уже год, и я не вносил никаких изменений, связанных с вышеупомянутыми вещами. Я помню, что давно не обновлял систему, а затем сделал обновление незадолго до начала описанной проблемы, но не знаю, связано ли это с ней.