O Google mudou como processa o robots.txt no Discourse?

jackjjw · Maio 11, 2020, 3:37pm

Meu fórum já está vinculado ao meu site há algumas semanas e enviei a URL ao Google. Recebi um aviso de ‘no index’, mas parece ser apenas para páginas de perfil, o que é bom.

No entanto, nada ainda aparece no Google. Há algo que eu precise fazer no lado do fórum, ou é apenas uma questão de aguardar que o Google o indexe?

satonotdead · Maio 11, 2020, 4:30pm

Talvez você possa tentar https://search.google.com/search-console/?

jackjjw · Maio 12, 2020, 7:00am

Parece que está dizendo que as páginas de post estão bloqueadas pelo robots.txt, mas isso não é algo que eu tenha feito. Existe alguma configuração no Discourse que eu precise alterar para liberar o acesso? Obrigado.

sam · Maio 12, 2020, 7:11am

Existe uma configuração do site. Procure por allow index in robots txt nas configurações do seu site; ela deve estar ativada (está ativada por padrão).

jackjjw · Maio 12, 2020, 7:13am

Obrigado, Sam. Essa configuração está marcada. É assim mesmo?

Desculpe, estou confundindo as coisas. Parece que as URLs bloqueadas são as equivalentes dos feeds RSS.

Acho que é só uma questão de esperar até que o Google atualize ou rastreie o site.

sam · Maio 12, 2020, 7:22am

Sim, isso continua se repetindo e causando problemas de suporte.

O Googlebot é meio chato. Não é possível dizer no robots.txt que você não quer que algo seja indexado. Estamos trabalhando em uma correção para agradar o Googlebot, mas levará algum tempo para ser implementada.

Informamos ao Googlebot no robots.txt: “Ei… não vá indexar todas as páginas .rss do site”
O Googlebot encontra algum link para um arquivo .rss no site
O Googlebot então reclama aos operadores do site que há um arquivo .rss no site, mas não consegue descobrir o que fazer com o link, pois não tem permissão para indexá-lo. Às vezes, até inclui esse conteúdo nos resultados de pesquisa.
Os operadores do site então reclamam no meta

Nossa solução geral aqui é simplesmente permitir que o Googlebot rastreie todas as páginas do site e use as tags canônicas e as instruções de indexação nos cabeçalhos HTTP para direcioná-lo ao caminho do sucesso.

Estou trabalhando com @jomaxro nisso e já fizemos bons progressos.

(fyi @codinghorror)

jackjjw · Maio 12, 2020, 7:29am

Obrigado pela atualização, Sam. Tudo faz sentido e eu entendo sua dor. Não sou especialista em SEO, mas já gerenciei sites maiores e trabalhei com equipes de SEO. Em fóruns, muitas vezes era muito complicado!

jomaxro · Maio 12, 2020, 4:59pm

Para deixar claro, isso não tem nada a ver com ser um fórum de discussão. Está relacionado à forma … interessante … como o Google trata o robots.txt. Conforme Robots.txt Introduction and Guide | Google Search Central | Documentation | Google for Developers

Uma página bloqueada pelo robots.txt ainda pode ser indexada se houver links para ela em outros sites
Embora o Google não rastreie nem indexe o conteúdo bloqueado pelo robots.txt, ele ainda pode encontrar e indexar uma URL proibida se ela estiver vinculada em outros lugares da web. Como resultado, o endereço da URL e, potencialmente, outras informações publicamente disponíveis, como o texto âncora nos links para a página, ainda podem aparecer nos resultados de pesquisa do Google. Para impedir corretamente que sua URL apareça nos resultados da Pesquisa do Google, você deve proteger os arquivos do seu servidor com senha ou usar a meta tag noindex ou o cabeçalho de resposta (ou remover a página completamente).

Há muito tempo incluímos páginas que não queremos indexadas no arquivo robots.txt padrão de cada site Discourse. Isso funcionava perfeitamente antes. Em algum momento no passado, isso deixou de ser suficiente; o Google decidiu indexar páginas vinculadas em outros lugares, mesmo que fossem proibidas pelo robots.txt.

Portanto, no início deste ano, começamos a testar a inclusão de cabeçalhos noindex em certas páginas. Isso funcionaria muito bem, exceto pelo fato de que agora temos um conflito entre o robots.txt e o cabeçalho. Conforme Block Search Indexing with noindex | Google Search Central | Documentation | Google for Developers

Importante! Para que a diretiva noindex seja eficaz, a página não deve ser bloqueada por um arquivo robots.txt. Se a página estiver bloqueada por um arquivo robots.txt, o rastreador nunca verá a diretiva noindex, e a página ainda pode aparecer nos resultados de pesquisa, por exemplo, se outras páginas tiverem links para ela.

Isso nos leva ao dia de hoje. Estamos testando a remoção de certas páginas do robots.txt. Precisamos ter cuidado, pois estamos fazendo todas essas alterações com base na documentação do Google, então sabemos que estamos em conformidade com o Googlebot, mas também precisamos verificar outros principais rastreadores para garantir que não causaremos problemas neles.

codinghorror · Maio 13, 2020, 7:04am

Citado para ênfase. O Google mudou o comportamento aqui, nós não, então levará um tempo para nos adaptarmos.

jackjjw · Junho 25, 2020, 1:28pm

Oi Jeff, tudo isso faz sentido para mim e eu entendi. Eu só queria confirmar se não fiz algo para ocultar as páginas dos tópicos da minha configuração no Google? A página inicial principal e as categorias estão aparecendo no Google, mas nenhuma das páginas dos tópicos está, isso já dura alguns meses. Este é o meu site: https://community.jackwallington.com/

codinghorror · Junho 25, 2020, 5:20pm

Acredito que fizemos todos os ajustes do nosso lado para nos adaptarmos às recentes mudanças de comportamento do Google… talvez @jomaxro possa confirmar? Você precisará estar na versão mais recente do Discourse.

jomaxro · Junho 25, 2020, 5:27pm

Não tenho certeza, vou precisar verificar. Acredito que fizemos algumas alterações manuais no robots.txt (apenas no Meta) durante os testes…

jomaxro · Junho 25, 2020, 5:32pm

Ao analisar discourse/app/controllers/robots_txt_controller.rb at main · discourse/discourse · GitHub, parece que as alterações são locais (apenas Meta). Vou corrigir isso; ainda temos alguns testes de longa duração em andamento, mas estou bastante confiante aqui.

jomaxro · Junho 25, 2020, 7:15pm

Alterações necessárias realizadas conforme

github.com/discourse/discourse

FIX: Remove paths from robots.txt in favor of noindex header

committed 05:55PM - 25 Jun 20 UTC

jomaxro

+0 -13

Google no longer supports the use of robots.txt to block indexing. See https://s…upport.google.com/webmasters/answer/6062608 and https://support.google.com/webmasters/answer/93710 Previous commits have added the `noindex` header to appropriate pages, now we need to remove the paths from robots.txt so the pages can be crawled. Follow up to: 13f229808a22db9e1032832a313ab701b66614c8 b6765aac4b532c026418a7ffd9effd0741ab8a37 676be3a853454a33cf627c3d570feb37d3bb0bfd 07b728c5e557c9aae91c51f3eaac5c32d479f2a2 c94e6a9a66757ea48d99e3ee8d880523871cb6f4

jackjjw · Junho 25, 2020, 7:31pm

Será que tenho uma tag no index em algum lugar para páginas de posts? Mesmo que o Google diga que agora ignora isso.

jomaxro · Junho 25, 2020, 7:40pm

A menos que você tenha instalado um plugin para adicionar isso, não consigo imaginar como esse cabeçalho seria inserido. O Google não ignora o cabeçalho noindex. O Google ignora o robots.txt quando outros sites apontam para sua página. O Google respeita o robots.txt durante a raspagem, motivo pelo qual o commit acima remove as entradas do robots.txt em favor dos cabeçalhos noindex adicionados anteriormente.

Sugiro que se cadastre no Google Search Console para ver você mesmo o que o Google está detectando. Talvez haja outro problema impedindo que os tópicos sejam visualizados.

jackjjw · Junho 25, 2020, 7:54pm

Obrigado, Joshua. O Google Search Console parece estar satisfeito e diz que todos os tópicos estão listados. É muito estranho: quando eu os procuro, as páginas dos tópicos não aparecem, mas as páginas inicial e de categoria sim.

sam · Dezembro 22, 2020, 5:17am

Vou reverter isso e deixar essa condição explícita para o Googlebot.

O Googlebot é um rastreador muito inteligente, mas muitos outros rastreadores não são tão inteligentes.

jomaxro · Dezembro 22, 2020, 5:22am

Justo. Note que há um commit posterior também a ser revertido.

sam · Dezembro 22, 2020, 6:01am

Criei este PR para resolver isso:

github.com/discourse/discourse

FEATURE: explicitly ban outlier traffic sources in robots.txt (#11553)

master ← crawl-less

merged 09:51PM - 22 Dec 20 UTC

SamSaffron

+27 -9

Googlebot handles no-index headers very elegantly. It advises to leave as many r…outes as possible open and uses headers for high fidelity rules regarding indexes. Discourse adds special `x-robot-tags` noindex headers to users, badges, groups, search and tag routes. Following up on b52143feff8c32f2 we now have it so Googlebot gets special handling. Rest of the crawlers get a far more aggressive disallow list to protect against excessive crawling.

O Google mantém sua regra especial e nós lançamos com melhor proteção para vários bots que não são tão avançados. O robots padrão agora se parece com:

# Consulte http://www.robotstxt.org/robotstxt.html para documentação sobre como usar o arquivo robots.txt
#
User-agent: mauibot
Disallow: /


User-agent: semrushbot
Disallow: /


User-agent: ahrefsbot
Disallow: /


User-agent: blexbot
Disallow: /


User-agent: seo spider
Disallow: /


User-agent: *
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*
Disallow: /badges
Disallow: /u
Disallow: /my
Disallow: /search
Disallow: /tags
Disallow: /g
Disallow: /t/*/*.rss
Disallow: /tags/*.rss
Disallow: /c/*.rss


User-agent: Googlebot
Disallow: /admin/
Disallow: /auth/
Disallow: /assets/browser-update*.js
Disallow: /email/
Disallow: /session
Disallow: /user-api-key
Disallow: /*?api_key*
Disallow: /*?*api_key*

Tópico		Respostas	Visualizações
Pages listed in the robots.txt are crawled and indexed by Google Support	19	3355	30 de Julho de 2019
Google notification to remove "noindex" statements from robots.txt Support	8	2482	30 de Julho de 2019
Google complaining – Indexed, though blocked by robots.txt Support	24	2584	28 de Setembro de 2023
Issues Google Search Console is throwing at me for wrong discourse structure (or some for wrong administration of my site) Support	18	253	18 de Dezembro de 2024
Generic rules in "robots.txt" not picked up by Googlebot Support	6	1029	2 de Abril de 2022

O Google mudou como processa o robots.txt no Discourse?

Tópicos relacionados