Regras genéricas em "robots.txt" não são captadas pelo Googlebot

amotl · Março 1, 2022, 2:07pm

Prezada equipe do Discourse,

Primeiramente, queremos parabenizá-los pelo espírito e pela perseverança em conceber e manter o Discourse. É sempre um prazer utilizá-lo para nós e para os membros de nossa comunidade.

Resumimos algumas observações menores feitas hoje e esperamos que as considerem úteis. Por outro lado, também ficaremos felizes em saber sobre quaisquer mal-entendidos de nossa parte.

Com os melhores cumprimentos,
Andreas.

Introdução

Ao investigar o comportamento de nossa instância hospedada do Discourse em https://community.crate.io/ com respeito ao seu arquivo de definição robots.txt ^[1], descobrimos que o Googlebot pode não honrar as configurações como pretendido.

Avaliação

Vamos exercitá-lo em nome do robots.txt no Meta ^[2], com o URL de meu perfil https://meta.discourse.org/u/amotl/.

A diferença pode ser rapidamente identificada comparando os resultados deste validador robots.txt gratuito:

– Avaliar com Googlebot

– Avaliar com MSNBot

Pesquisa

Sobre este tópico, acreditamos já ter encontrado a resposta:

Considerações

Portanto, estamos inclinados a acreditar que o Googlebot pode atualmente ignorar completamente as regras definidas na seção User-agent: * ^[3] e honrar apenas as regras dentro da seção User-agent: Googlebot ^[4].

https://community.crate.io/robots.txt ↩︎
https://meta.discourse.org/robots.txt ↩︎

robots.txt, seção User-agent: *

User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tag
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /c/*.rss

↩︎

robots.txt, seção User-agent: Googlebot

User-agent: Googlebot
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /*?api_key*
Disallow: /*?*api_key*

↩︎

Jagster · Março 1, 2022, 2:13pm

Se entendi corretamente, a resposta não é tão fácil. Se um único usuário enviou um link usando o Gmail, o googlebot não respeita o robots.txt. O mesmo acontece se um link for compartilhado em algum lugar (backlinks) onde parece para o googlebot como um link normal do dia a dia.

Novamente — o robots.txt é apenas um pedido.

Existe outro, mas mais… Bastantes bots se identificam como googlebot e a realidade só pode ser encontrada via IP.

rrit · Março 1, 2022, 3:43pm

Isso está correto e implementado intencionalmente dessa forma.

Portanto, o Googlebot recebe um cabeçalho http extra X-Robots-Tag: noindex para páginas que realmente não devem ser indexadas. Veja:

github.com/discourse/discourse

FEATURE: explicitly ban outlier traffic sources in robots.txt (#11553)

committed 09:51PM - 22 Dec 20 UTC

SamSaffron

+27 -9

Googlebot handles no-index headers very elegantly. It advises to leave as many r…outes as possible open and uses headers for high fidelity rules regarding indexes. Discourse adds special `x-robot-tags` noindex headers to users, badges, groups, search and tag routes. Following up on b52143feff8c32f2 we now have it so Googlebot gets special handling. Rest of the crawlers get a far more aggressive disallow list to protect against excessive crawling.

Para seus próprios domínios, você pode usar o Google Search Console → Inspecionar URL

Em seguida, tente adicionar uma URL de perfil de usuário para indexar – por exemplo, https://www.example.com/u/jacob

amotl · Março 1, 2022, 3:50pm

Prezado Ayke,

Confirmado.

$ http https://meta.discourse.org/u/amotl --print hH | grep -i robot
X-Robots-Tag: noindex

Muito obrigado pela sua rápida resposta e explicação e por referenciar o patch correspondente.

Atenciosamente,
Andreas.

sam · Março 2, 2022, 10:11pm

Movi isto para Support, obrigado pelo seu relatório de bug maravilhosamente escrito aqui.

Levou-nos tanto tempo para ajustar nossas regras para manter o Google feliz, x-robots-tag noindex é suportado de forma desigual, mas é um padrão da indústria. O problema de simplesmente proibir a rastreabilidade era que, por alguma razão, sob certas condições, as páginas poderiam se encontrar no índice do Google e, em seguida, não havia uma maneira fácil de removê-las, pois a rastreabilidade era proibida, um pouco um problema de ovo encontra a galinha.

amotl · Março 3, 2022, 8:45am

Prezado Sam,

Muito obrigado por compartilhar mais detalhes sobre este assunto. Como sempre, fico impressionado com o nível de excelência que você está dedicando a cada detalhe do Discourse.

Tenho que admitir que não estava ciente disso até agora. Então, obrigado novamente!

Ótimo. Obrigado. Se isso se tornou um padrão amplamente aceito agora, haverá esperança de que alguns dos validadores gratuitos de robots.txt também comecem a honrá-lo no futuro?

Você está ciente de algum que já implementa verificações de cabeçalho adicionais correspondentes, além de ler o robots.txt hoje, como o Inspecionar URL do Google Search Console faz? Isso provavelmente ajudaria as pessoas a evitar a mesma confusão em que nos encontramos.

Com os melhores cumprimentos,
Andreas.

system · Abril 2, 2022, 8:46am

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.

Tópico		Respostas	Visualizações
Pages listed in the robots.txt are crawled and indexed by Google Support	19	3277	30 de Julho de 2019
Excluding user profiles in robots.txt (or allow edit of file) Feature	5	2501	24 de Maio de 2014
Google changed how they process robots.txt in Discourse? Support	20	1684	22 de Dezembro de 2020
Malformed robots.txt causing issues with indexing Support	9	1848	21 de Abril de 2023
Indexing User Profiles Support	2	65	4 de Setembro de 2025

Regras genéricas em "robots.txt" não são captadas pelo Googlebot

Introdução

Avaliação

Pesquisa

Considerações

Tópicos relacionados