Forma de desativar globalmente todos os feeds RSS

hhunter · Outubro 25, 2021, 9:22pm

Olá,

Ao realizar uma auditoria de SEO do nosso site, parte do qual é executado no Discourse, parece que o Googlebot está gastando uma quantidade considerável do orçamento de rastreamento em feeds RSS. Isso ocorre mesmo com o arquivo robots.txt padrão do Discourse que bloqueia essas URLs e apesar do cabeçalho noindex enviado na resposta HTTP para esses URLs de RSS.

Tenho curiosidade se existe uma maneira não “gambiarra” de desativar esses feeds RSS completamente no meu site. Não suspeito que muitas pessoas os estejam usando (vou tentar confirmar isso). Mas minha pergunta permanece válida.

Obrigado por qualquer ajuda sobre isso!

–Hugh

Falco · Outubro 25, 2021, 9:34pm

No momento, não há uma caixa de seleção para desativar esses feeds.

Se você tem familiaridade com o nginx, pode criar um bloco de localização que corresponda aos arquivos .rss, retorne um erro 404 e inclua essa configuração na seção apropriada do app.yml.

IAmGav · Outubro 25, 2021, 9:36pm

Enviar um 404 não seria ainda pior para o SEO?

hello-smile6 · Outubro 25, 2021, 9:42pm

Por que não bloqueá-los usando o nginx?

j127 · Outubro 26, 2021, 7:06am

O Google está realmente buscando essas páginas ou os URLs estão apenas aparecendo no Google Search Console como “indexados, mas bloqueados pelo robots.txt”?

~~Não vejo cabeçalhos noindex nos feeds RSS, mas se um URL estiver bloqueado pelo robots.txt e tiver um cabeçalho robots, o crawler pode nunca ver o cabeçalho robots.~~

[Removi a saída do curl -I, porque ele não estava usando GET, então o cabeçalho robots estava ausente.]

Edição: Acabei de verificar os feeds RSS com uma solicitação GET, porque achei que o cabeçalho x-robots-noindex estivesse nos feeds RSS, e ele está lá, mas apenas com uma solicitação GET.

Agora estou lembrando o que fiz no meu fórum principal. O Google Search Console estava alertando sobre os URLs dos RSS estarem indexados, mas bloqueados, então desbloqueei os feeds no robots.txt, pois isso impede que o Googlebot busque os URLs e veja o cabeçalho noindex. Tenho quase certeza de que isso resolverá os alertas, mas não sei se impedirá o Googlebot de rastrear esses URLs.

# Disallow: /t/*/*.rss
# Disallow: /c/*.rss

Eu me preocuparia um pouco em informar aos crawlers que existem feeds RSS (com link, veja abaixo) e, em seguida, enviar respostas 404 quando os bots tentarem buscar esses URLs. Isso pode fazer com que uma máquina pense que há algum problema técnico no site, reduzindo sua pontuação de qualidade (independentemente de como os mecanismos de busca determinam a qualidade ou se um site pode estar quebrado para os usuários).

$ curl -s https://meta.discourse.org/latest | grep -i rss    
    <link rel="alternate" type="application/rss+xml" title="Latest posts" href="https://meta.discourse.org/posts.rss" />
    <link rel="alternate" type="application/rss+xml" title="Latest topics" href="https://meta.discourse.org/latest.rss" />
   ...

hhunter · Outubro 26, 2021, 1:40pm

Sim, não sou fã da solução 404. Parece que pode enviar um sinal ruim ao Google e também é uma maneira bastante bruta de conseguir o que quero. O que realmente desejo é que os links não estejam na página, e não que sejam links mortos.

Em relação à sua pergunta, os feeds RSS aparecem como “Excluídos pela tag ‘noindex’” no Search Console. Não está claro se isso significa que o Google gastou tempo buscá-los e depois os excluiu, ou se foram excluídos antes da busca, caso em que o impacto no orçamento de rastreamento provavelmente é menor.

j127 · Outubro 26, 2021, 3:53pm

Pode haver algumas informações sobre quantos URLs RSS eles estão buscando nos logs do nginx. Acabei de verificar os meus e o Googlebot está rastreando os feeds RSS, mas eu só solicitei isso porque os desbloqueei no robots.txt.

Tópico		Respostas	Visualizações
Block RSS Support	9	163	18 de Fevereiro de 2025
Bing is picking all the rss feed for each post, can I disable the feed in Discourse Support	10	994	21 de Novembro de 2020
Google changed how they process robots.txt in Discourse? Support	20	1746	22 de Dezembro de 2020
Pages listed in the robots.txt are crawled and indexed by Google Support	19	3332	30 de Julho de 2019
Google notification to remove "noindex" statements from robots.txt Support	8	2467	30 de Julho de 2019

Forma de desativar globalmente todos os feeds RSS

Tópicos relacionados