robots.txt malformado causando problemas com indexação

Olá a todos,

Acabamos de perceber que nosso fórum Discourse não está sendo indexado pelo Google (lembramos que estava indexado há cerca de um ano) e estamos tentando resolver isso agora mesmo. Quais configurações precisamos garantir que estejam corretamente definidas?

Isso é o que fiz até agora:

  1. Garanti que “permitir indexação no robots.txt” esteja marcado

  2. Adicionei os seguintes domínios a “excluir domínios rel nofollow”:

    • grakn.ai (nosso domínio principal)
    • discuss.grakn.ai (nosso domínio do fórum Discourse)
  3. Garanti que “adicionar rel nofollow ao conteúdo do usuário” esteja desmarcado

  4. Adicionei Googlebot a “user agents de rastreadores na lista branca”

Estou esquecendo alguma outra configuração que precise ser definida?

Nosso Google Search Console mostra que discuss.grakn.ai ainda não pode ser rastreado porque está bloqueado pelo robots.txt — veja a captura de tela abaixo.

Obrigado antecipadamente pela ajuda!!!

Admin → Configurações → Ativar Robots.txt

O arquivo Robots do seu fórum está disponível em: https://discuss.grakn.ai/robots.txt

Faça login no Google Webmaster Tools e verifique: https://www.google.com/webmasters/tools/robots-testing-tool

Com as configurações padrão originais, isso funciona perfeitamente. Você modificou essas configurações ao fazer a instalação inicial?

O arquivo robots.txt tem este texto no meio, então pode haver problemas com os rastreadores:

User-agent: *
Disallow: /
Noindex: /

No entanto, o Google está indexando páginas:

Pode ser que o Googlebot esteja olhando para suas regras específicas do Google e as Ferramentas para Webmasters estejam avisando sobre o curinga.

(Não tenho certeza de quais configurações resultam nessa saída do robots.txt.)

Sim.

  1. Acesse: https://discuss.grakn.ai/admin/customize/robots

  2. Remova:

    User-agent: *
    Disallow: /
    Noindex: /

  3. Vá para o Google Search Console: https://www.google.com/webmasters/tools/robots-testing-tool

Escolha uma propriedade verificada e envie o robots.txt novamente ao Google.

Acho que deve funcionar.

Finalmente, remover o seguinte bloco resolveu o problema.

User-agent: *
Disallow: /
Noindex: /

Muito obrigado, @j127 e @tohaitrieu!!!

O Google Search Console agora mostra que discuss.grakn.ai está na fila para indexação.

Abraços!

Estou muito confuso sobre como você acabou nesse estado. Você alterou as configurações padrão do site relacionadas ao rastreamento?

Eu também não tenho certeza de como chegamos ao estado acima, @codinghorror. Tenho sido o administrador do site nos últimos meses e não alterei nada relacionado ao assunto mencionado. Lembro-me de não ter feito uma atualização há muito tempo e, em seguida, fiz uma pouco antes do problema acima começar a ocorrer, mas não sei se há relação.