Чтобы прояснить ситуацию: это не имеет ничего общего с тем, что это форум для обсуждений. Это связано с … интересным … подходом Google к файлу robots.txt. Подробнее: Robots.txt Introduction and Guide | Google Search Central | Documentation | Google for Developers
Страница, заблокированная robots.txt, всё ещё может быть проиндексирована, если на неё есть ссылки с других сайтов
Хотя Google не будет сканировать или индексировать контент, заблокированный через robots.txt, мы всё же можем найти и проиндексировать запрещённый URL, если на него есть ссылки в других местах интернета. В результате адрес URL и, возможно, другая общедоступная информация, такая как анкор-текст ссылок на страницу, всё ещё могут появляться в результатах поиска Google. Чтобы надёжно предотвратить появление вашего URL в результатах поиска Google, вам следует защитить файлы на сервере паролем или использовать мета-тег noindex или заголовок ответа (либо полностью удалить страницу).
Мы уже давно включали страницы, которые не хотим индексировать, в файл robots.txt по умолчанию, который есть на каждом сайте Discourse. Ранее это работало отлично. В какой-то момент в прошлом этого стало недостаточно: Google решил индексировать страницы, на которые есть ссылки из других мест, даже если они запрещены через robots.txt.
Поэтому в начале этого года мы начали тестировать добавление заголовков noindex на определённые страницы. Это работало бы отлично, если бы не возник конфликт между robots.txt и заголовком. Подробнее: Block Search Indexing with noindex | Google Search Central | Documentation | Google for Developers
Важно! Чтобы директива noindex была эффективной, страница не должна быть заблокирована файлом robots.txt. Если страница заблокирована robots.txt, сканер никогда не увидит директиву noindex, и страница всё ещё может появиться в результатах поиска, например, если на неё ссылаются другие страницы.
Это приводит нас к сегодняшнему дню. Мы тестируем удаление определённых страниц из robots.txt. Мы должны быть осторожны, так как все эти изменения основаны на документации Google: мы уверены, что всё в порядке с Googlebot, но также необходимо проверить других крупных сканеров, чтобы убедиться, что мы не создадим проблем для них.