Forma de desativar globalmente todos os feeds RSS

Olá,

Ao realizar uma auditoria de SEO do nosso site, parte do qual é executado no Discourse, parece que o Googlebot está gastando uma quantidade considerável do orçamento de rastreamento em feeds RSS. Isso ocorre mesmo com o arquivo robots.txt padrão do Discourse que bloqueia essas URLs e apesar do cabeçalho noindex enviado na resposta HTTP para esses URLs de RSS.

Tenho curiosidade se existe uma maneira não “gambiarra” de desativar esses feeds RSS completamente no meu site. Não suspeito que muitas pessoas os estejam usando (vou tentar confirmar isso). Mas minha pergunta permanece válida.

Obrigado por qualquer ajuda sobre isso!

–Hugh

1 curtida

No momento, não há uma caixa de seleção para desativar esses feeds.

Se você tem familiaridade com o nginx, pode criar um bloco de localização que corresponda aos arquivos .rss, retorne um erro 404 e inclua essa configuração na seção apropriada do app.yml.

1 curtida

Enviar um 404 não seria ainda pior para o SEO?

2 curtidas

Por que não bloqueá-los usando o nginx?

O Google está realmente buscando essas páginas ou os URLs estão apenas aparecendo no Google Search Console como “indexados, mas bloqueados pelo robots.txt”?

Não vejo cabeçalhos noindex nos feeds RSS, mas se um URL estiver bloqueado pelo robots.txt e tiver um cabeçalho robots, o crawler pode nunca ver o cabeçalho robots.

[Removi a saída do curl -I, porque ele não estava usando GET, então o cabeçalho robots estava ausente.]

Edição: Acabei de verificar os feeds RSS com uma solicitação GET, porque achei que o cabeçalho x-robots-noindex estivesse nos feeds RSS, e ele está lá, mas apenas com uma solicitação GET.

Agora estou lembrando o que fiz no meu fórum principal. O Google Search Console estava alertando sobre os URLs dos RSS estarem indexados, mas bloqueados, então desbloqueei os feeds no robots.txt, pois isso impede que o Googlebot busque os URLs e veja o cabeçalho noindex. Tenho quase certeza de que isso resolverá os alertas, mas não sei se impedirá o Googlebot de rastrear esses URLs.

# Disallow: /t/*/*.rss
# Disallow: /c/*.rss

Eu me preocuparia um pouco em informar aos crawlers que existem feeds RSS (com link, veja abaixo) e, em seguida, enviar respostas 404 quando os bots tentarem buscar esses URLs. Isso pode fazer com que uma máquina pense que há algum problema técnico no site, reduzindo sua pontuação de qualidade (independentemente de como os mecanismos de busca determinam a qualidade ou se um site pode estar quebrado para os usuários).

$ curl -s https://meta.discourse.org/latest | grep -i rss    
    <link rel="alternate" type="application/rss+xml" title="Latest posts" href="https://meta.discourse.org/posts.rss" />
    <link rel="alternate" type="application/rss+xml" title="Latest topics" href="https://meta.discourse.org/latest.rss" />
   ...
1 curtida

Sim, não sou fã da solução 404. Parece que pode enviar um sinal ruim ao Google e também é uma maneira bastante bruta de conseguir o que quero. O que realmente desejo é que os links não estejam na página, e não que sejam links mortos.

Em relação à sua pergunta, os feeds RSS aparecem como “Excluídos pela tag ‘noindex’” no Search Console. Não está claro se isso significa que o Google gastou tempo buscá-los e depois os excluiu, ou se foram excluídos antes da busca, caso em que o impacto no orçamento de rastreamento provavelmente é menor.

Pode haver algumas informações sobre quantos URLs RSS eles estão buscando nos logs do nginx. Acabei de verificar os meus e o Googlebot está rastreando os feeds RSS, mas eu só solicitei isso porque os desbloqueei no robots.txt.