Regras genéricas em "robots.txt" não são captadas pelo Googlebot

Prezada equipe do Discourse,

Primeiramente, queremos parabenizá-los pelo espírito e pela perseverança em conceber e manter o Discourse. É sempre um prazer utilizá-lo para nós e para os membros de nossa comunidade.

Resumimos algumas observações menores feitas hoje e esperamos que as considerem úteis. Por outro lado, também ficaremos felizes em saber sobre quaisquer mal-entendidos de nossa parte.

Com os melhores cumprimentos,
Andreas.


Introdução

Ao investigar o comportamento de nossa instância hospedada do Discourse em https://community.crate.io/ com respeito ao seu arquivo de definição robots.txt [1], descobrimos que o Googlebot pode não honrar as configurações como pretendido.

Avaliação

Vamos exercitá-lo em nome do robots.txt no Meta [2], com o URL de meu perfil https://meta.discourse.org/u/amotl/.

A diferença pode ser rapidamente identificada comparando os resultados deste validador robots.txt gratuito:


Avaliar com Googlebot


Avaliar com MSNBot

Pesquisa

Sobre este tópico, acreditamos já ter encontrado a resposta:

Considerações

Portanto, estamos inclinados a acreditar que o Googlebot pode atualmente ignorar completamente as regras definidas na seção User-agent: * [3] e honrar apenas as regras dentro da seção User-agent: Googlebot [4].


  1. https://community.crate.io/robots.txt ↩︎

  2. https://meta.discourse.org/robots.txt ↩︎

  3. robots.txt, seção User-agent: *

    User-agent: *
    Disallow: /admin/
    Disallow: /auth/
    Disallow: /assets/browser-update*.js
    Disallow: /email/
    Disallow: /session
    Disallow: /user-api-key
    Disallow: /*?api_key*
    Disallow: /*?*api_key*
    Disallow: /badges
    Disallow: /u
    Disallow: /my
    Disallow: /search
    Disallow: /tag
    Disallow: /g
    Disallow: /t/*/*.rss
    Disallow: /c/*.rss
    
    ↩︎
  4. robots.txt, seção User-agent: Googlebot

    User-agent: Googlebot
    Disallow: /auth/
    Disallow: /assets/browser-update*.js
    Disallow: /email/
    Disallow: /session
    Disallow: /*?api_key*
    Disallow: /*?*api_key*
    
    ↩︎
4 curtidas

Se entendi corretamente, a resposta não é tão fácil. Se um único usuário enviou um link usando o Gmail, o googlebot não respeita o robots.txt. O mesmo acontece se um link for compartilhado em algum lugar (backlinks) onde parece para o googlebot como um link normal do dia a dia.

Novamente — o robots.txt é apenas um pedido.

Existe outro, mas mais… Bastantes bots se identificam como googlebot e a realidade só pode ser encontrada via IP.

3 curtidas

Isso está correto e implementado intencionalmente dessa forma.

Portanto, o Googlebot recebe um cabeçalho http extra X-Robots-Tag: noindex para páginas que realmente não devem ser indexadas. Veja:


Para seus próprios domínios, você pode usar o Google Search Console → Inspecionar URL

Em seguida, tente adicionar uma URL de perfil de usuário para indexar – por exemplo, https://www.example.com/u/jacob

4 curtidas

Prezado Ayke,

Confirmado.

$ http https://meta.discourse.org/u/amotl --print hH | grep -i robot
X-Robots-Tag: noindex

Muito obrigado pela sua rápida resposta e explicação e por referenciar o patch correspondente.

Atenciosamente,
Andreas.

2 curtidas

Movi isto para Support, obrigado pelo seu relatório de bug maravilhosamente escrito aqui.

Levou-nos tanto tempo para ajustar nossas regras para manter o Google feliz, x-robots-tag noindex é suportado de forma desigual, mas é um padrão da indústria. O problema de simplesmente proibir a rastreabilidade era que, por alguma razão, sob certas condições, as páginas poderiam se encontrar no índice do Google e, em seguida, não havia uma maneira fácil de removê-las, pois a rastreabilidade era proibida, um pouco um problema de ovo encontra a galinha.

4 curtidas

Prezado Sam,

Muito obrigado por compartilhar mais detalhes sobre este assunto. Como sempre, fico impressionado com o nível de excelência que você está dedicando a cada detalhe do Discourse.

Tenho que admitir que não estava ciente disso até agora. Então, obrigado novamente!

image

Ótimo. Obrigado. Se isso se tornou um padrão amplamente aceito agora, haverá esperança de que alguns dos validadores gratuitos de robots.txt também comecem a honrá-lo no futuro?

Você está ciente de algum que já implementa verificações de cabeçalho adicionais correspondentes, além de ler o robots.txt hoje, como o Inspecionar URL do Google Search Console faz? Isso provavelmente ajudaria as pessoas a evitar a mesma confusão em que nos encontramos.

Com os melhores cumprimentos,
Andreas.

This topic was automatically closed 30 days after the last reply. New replies are no longer allowed.