Мы только что обнаружили, что наш форум Discourse не индексируется Google (мы помним, что примерно год назад он индексировался), и сейчас пытаемся это исправить. Какие настройки нам нужно убедиться, что они установлены правильно?
Вот что я уже сделал:
Я убедился, что параметр “Разрешить индексацию в robots.txt”отмечен.
Я добавил следующие домены в “Исключить домены rel nofollow”:
grakn.ai (наш основной домен сайта)
discuss.grakn.ai (наш домен форума Discourse)
Я убедился, что параметр “Добавлять rel nofollow к пользовательскому контенту”снят.
Я добавил Googlebot в “Белый список агентов-краулеров”.
Не упустил ли я какие-то другие настройки, которые нужно установить?
В Google Search Console показано, что discuss.grakn.ai всё ещё не может быть просканирован, так как заблокирован файлом robots.txt — см. скриншот ниже.
В файле robots.txt в середине есть этот текст, поэтому могут возникнуть проблемы с краулерами:
User-agent: *
Disallow: /
Noindex: /
Однако Google индексирует страницы:
Возможно, Googlebot обращается к вашим правилам, специфичным для Google, а в инструментах для веб-мастеров вам выводится предупреждение о подстановочном знаке.
(Я не уверен, какие настройки приводят к такому выводу robots.txt.)
Я тоже не совсем понимаю, как мы пришли к описанному выше состоянию, @codinghorror. Я являюсь администратором сайта уже год, и я не вносил никаких изменений, связанных с вышеупомянутыми вещами. Я помню, что давно не обновлял систему, а затем сделал обновление незадолго до начала описанной проблемы, но не знаю, связано ли это с ней.