Primeiramente, queremos parabenizá-los pelo espírito e pela perseverança em conceber e manter o Discourse. É sempre um prazer utilizá-lo para nós e para os membros de nossa comunidade.
Resumimos algumas observações menores feitas hoje e esperamos que as considerem úteis. Por outro lado, também ficaremos felizes em saber sobre quaisquer mal-entendidos de nossa parte.
Com os melhores cumprimentos,
Andreas.
Introdução
Ao investigar o comportamento de nossa instância hospedada do Discourse em https://community.crate.io/ com respeito ao seu arquivo de definição robots.txt[1], descobrimos que o Googlebot pode não honrar as configurações como pretendido.
Avaliação
Vamos exercitá-lo em nome do robots.txt no Meta [2], com o URL de meu perfil https://meta.discourse.org/u/amotl/.
A diferença pode ser rapidamente identificada comparando os resultados deste validador robots.txt gratuito:
Sobre este tópico, acreditamos já ter encontrado a resposta:
Considerações
Portanto, estamos inclinados a acreditar que o Googlebot pode atualmente ignorar completamente as regras definidas na seção User-agent: *[3] e honrar apenas as regras dentro da seção User-agent: Googlebot[4].
Se entendi corretamente, a resposta não é tão fácil. Se um único usuário enviou um link usando o Gmail, o googlebot não respeita o robots.txt. O mesmo acontece se um link for compartilhado em algum lugar (backlinks) onde parece para o googlebot como um link normal do dia a dia.
Novamente — o robots.txt é apenas um pedido.
Existe outro, mas mais… Bastantes bots se identificam como googlebot e a realidade só pode ser encontrada via IP.
Movi isto para Support, obrigado pelo seu relatório de bug maravilhosamente escrito aqui.
Levou-nos tanto tempo para ajustar nossas regras para manter o Google feliz, x-robots-tag noindex é suportado de forma desigual, mas é um padrão da indústria. O problema de simplesmente proibir a rastreabilidade era que, por alguma razão, sob certas condições, as páginas poderiam se encontrar no índice do Google e, em seguida, não havia uma maneira fácil de removê-las, pois a rastreabilidade era proibida, um pouco um problema de ovo encontra a galinha.
Muito obrigado por compartilhar mais detalhes sobre este assunto. Como sempre, fico impressionado com o nível de excelência que você está dedicando a cada detalhe do Discourse.
Tenho que admitir que não estava ciente disso até agora. Então, obrigado novamente!
Ótimo. Obrigado. Se isso se tornou um padrão amplamente aceito agora, haverá esperança de que alguns dos validadores gratuitos de robots.txt também comecem a honrá-lo no futuro?
Você está ciente de algum que já implementa verificações de cabeçalho adicionais correspondentes, além de ler o robots.txthoje, como o Inspecionar URL do Google Search Console faz? Isso provavelmente ajudaria as pessoas a evitar a mesma confusão em que nos encontramos.