O Google mudou como processa o robots.txt no Discourse?

Meu fórum já está vinculado ao meu site há algumas semanas e enviei a URL ao Google. Recebi um aviso de ‘no index’, mas parece ser apenas para páginas de perfil, o que é bom.

No entanto, nada ainda aparece no Google. Há algo que eu precise fazer no lado do fórum, ou é apenas uma questão de aguardar que o Google o indexe?

Talvez você possa tentar https://search.google.com/search-console/?

Parece que está dizendo que as páginas de post estão bloqueadas pelo robots.txt, mas isso não é algo que eu tenha feito. Existe alguma configuração no Discourse que eu precise alterar para liberar o acesso? Obrigado.

Existe uma configuração do site. Procure por allow index in robots txt nas configurações do seu site; ela deve estar ativada (está ativada por padrão).

2 curtidas

Obrigado, Sam. Essa configuração está marcada. É assim mesmo?

Desculpe, estou confundindo as coisas. Parece que as URLs bloqueadas são as equivalentes dos feeds RSS.

Acho que é só uma questão de esperar até que o Google atualize ou rastreie o site.

Sim, isso continua se repetindo e causando problemas de suporte.

O Googlebot é meio chato. Não é possível dizer no robots.txt que você não quer que algo seja indexado. Estamos trabalhando em uma correção para agradar o Googlebot, mas levará algum tempo para ser implementada.

  • Informamos ao Googlebot no robots.txt: “Ei… não vá indexar todas as páginas .rss do site”

  • O Googlebot encontra algum link para um arquivo .rss no site

  • O Googlebot então reclama aos operadores do site que há um arquivo .rss no site, mas não consegue descobrir o que fazer com o link, pois não tem permissão para indexá-lo. Às vezes, até inclui esse conteúdo nos resultados de pesquisa.

  • Os operadores do site então reclamam no meta

Nossa solução geral aqui é simplesmente permitir que o Googlebot rastreie todas as páginas do site e use as tags canônicas e as instruções de indexação nos cabeçalhos HTTP para direcioná-lo ao caminho do sucesso.

Estou trabalhando com @jomaxro nisso e já fizemos bons progressos.

(fyi @codinghorror)

7 curtidas

Obrigado pela atualização, Sam. Tudo faz sentido e eu entendo sua dor. Não sou especialista em SEO, mas já gerenciei sites maiores e trabalhei com equipes de SEO. Em fóruns, muitas vezes era muito complicado!

1 curtida

Para deixar claro, isso não tem nada a ver com ser um fórum de discussão. Está relacionado à forma … interessante … como o Google trata o robots.txt. Conforme Robots.txt Introduction and Guide | Google Search Central  |  Documentation  |  Google for Developers

Uma página bloqueada pelo robots.txt ainda pode ser indexada se houver links para ela em outros sites
Embora o Google não rastreie nem indexe o conteúdo bloqueado pelo robots.txt, ele ainda pode encontrar e indexar uma URL proibida se ela estiver vinculada em outros lugares da web. Como resultado, o endereço da URL e, potencialmente, outras informações publicamente disponíveis, como o texto âncora nos links para a página, ainda podem aparecer nos resultados de pesquisa do Google. Para impedir corretamente que sua URL apareça nos resultados da Pesquisa do Google, você deve proteger os arquivos do seu servidor com senha ou usar a meta tag noindex ou o cabeçalho de resposta (ou remover a página completamente).

Há muito tempo incluímos páginas que não queremos indexadas no arquivo robots.txt padrão de cada site Discourse. Isso funcionava perfeitamente antes. Em algum momento no passado, isso deixou de ser suficiente; o Google decidiu indexar páginas vinculadas em outros lugares, mesmo que fossem proibidas pelo robots.txt.

Portanto, no início deste ano, começamos a testar a inclusão de cabeçalhos noindex em certas páginas. Isso funcionaria muito bem, exceto pelo fato de que agora temos um conflito entre o robots.txt e o cabeçalho. Conforme Block Search Indexing with noindex | Google Search Central  |  Documentation  |  Google for Developers

Importante! Para que a diretiva noindex seja eficaz, a página não deve ser bloqueada por um arquivo robots.txt. Se a página estiver bloqueada por um arquivo robots.txt, o rastreador nunca verá a diretiva noindex, e a página ainda pode aparecer nos resultados de pesquisa, por exemplo, se outras páginas tiverem links para ela.

Isso nos leva ao dia de hoje. Estamos testando a remoção de certas páginas do robots.txt. Precisamos ter cuidado, pois estamos fazendo todas essas alterações com base na documentação do Google, então sabemos que estamos em conformidade com o Googlebot, mas também precisamos verificar outros principais rastreadores para garantir que não causaremos problemas neles.

6 curtidas

Citado para ênfase. O Google mudou o comportamento aqui, nós não, então levará um tempo para nos adaptarmos.

7 curtidas

Oi Jeff, tudo isso faz sentido para mim e eu entendi. Eu só queria confirmar se não fiz algo para ocultar as páginas dos tópicos da minha configuração no Google? A página inicial principal e as categorias estão aparecendo no Google, mas nenhuma das páginas dos tópicos está, isso já dura alguns meses. Este é o meu site: https://community.jackwallington.com/

Acredito que fizemos todos os ajustes do nosso lado para nos adaptarmos às recentes mudanças de comportamento do Google… talvez @jomaxro possa confirmar? Você precisará estar na versão mais recente do Discourse.

Não tenho certeza, vou precisar verificar. Acredito que fizemos algumas alterações manuais no robots.txt (apenas no Meta) durante os testes…

1 curtida

Ao analisar discourse/app/controllers/robots_txt_controller.rb at main · discourse/discourse · GitHub, parece que as alterações são locais (apenas Meta). Vou corrigir isso; ainda temos alguns testes de longa duração em andamento, mas estou bastante confiante aqui.

2 curtidas

Alterações necessárias realizadas conforme

2 curtidas

Será que tenho uma tag no index em algum lugar para páginas de posts? Mesmo que o Google diga que agora ignora isso.

A menos que você tenha instalado um plugin para adicionar isso, não consigo imaginar como esse cabeçalho seria inserido. O Google não ignora o cabeçalho noindex. O Google ignora o robots.txt quando outros sites apontam para sua página. O Google respeita o robots.txt durante a raspagem, motivo pelo qual o commit acima remove as entradas do robots.txt em favor dos cabeçalhos noindex adicionados anteriormente.

Sugiro que se cadastre no Google Search Console para ver você mesmo o que o Google está detectando. Talvez haja outro problema impedindo que os tópicos sejam visualizados.

1 curtida

Obrigado, Joshua. O Google Search Console parece estar satisfeito e diz que todos os tópicos estão listados. É muito estranho: quando eu os procuro, as páginas dos tópicos não aparecem, mas as páginas inicial e de categoria sim.

1 curtida

Vou reverter isso e deixar essa condição explícita para o Googlebot.

O Googlebot é um rastreador muito inteligente, mas muitos outros rastreadores não são tão inteligentes.

2 curtidas

Justo. Note que há um commit posterior também a ser revertido.

1 curtida

Criei este PR para resolver isso:

O Google mantém sua regra especial e nós lançamos com melhor proteção para vários bots que não são tão avançados. O robots padrão agora se parece com:

# Consulte http://www.robotstxt.org/robotstxt.html para documentação sobre como usar o arquivo robots.txt
#
User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /


User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tags
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /tags/*.rss
Disallow: /c/*.rss


User-agent: Googlebot
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*

4 curtidas