Problemas que o Google Search Console está indicando para mim devido à estrutura de discurso incorreta (ou alguma má administração do meu site)

Após o fim da histeria inicial (que pode tomar conta de uma pessoa que descobre que, nos últimos quase seis meses, o Google não estava prestando atenção ao seu site e ele nem sabia disso!!),

Tentarei listar aqui apenas as causas relacionadas ao código do Discourse, ou seja, que não podem ser corrigidas nem pelo Google, nem por mim (pelo que posso dizer), mas pela equipe do Discourse.

Ao clicar em ‘Relatório de indexação de vídeo’:

E ao clicar no link ‘Melhorias > Vídeos’:

Por favor, ajude.

Anteriormente, quando me deparei com o problema (tudo isso pode ser pulado)::

Após vários meses perdendo usuários, hoje descobri que meu site foi bloqueado/proibido pelo Google!!!

Mais cedo, como descobri este problema, tudo pode ser pulado:

Li quase todo o tópico do meta antes de perguntar.

Em agosto de 2024, notei que o tráfego para meu site havia diminuído em até 95%. Mas ignorei, pensando que talvez eu não estivesse postando o suficiente.

Mas hoje descobri que, não importa qual termo eu procurasse no Google, restringindo a pesquisa apenas ao meu próprio site: ***site:BathindaHelper.com jobs in bathinda***, ele estava retornando ZERO resultado (o único resultado que ele mostra do meu site é, na verdade, apenas uma sugestão para eu criar anúncios do Google para mostrar este resultado do meu site, o que indica que meu site FOI realmente indexado):


E, finalmente, também verifiquei o Google Analytics (talvez renomeado para Google Events) e ele mostra claramente que, a partir de 17 de junho de 2024, o Google não está mais encaminhando tráfego para o meu site.

Quando você criou seu site, usou login forçado ou parou de mostrar tópicos TL0+? O Google só pode usar um site se ele for visível para o mundo. Ou você bloqueou os user agents do Google.

Este é o mesmo fórum onde você teve problemas de DNS?

2 curtidas

Você está perguntando por causa de Site does not appear in google searches - #2 by Bathinda? Acho que a resposta abaixo está respondendo à pergunta do OP.

1 curtida

Eu usei a palavra ‘force’ incorretamente. (Eu quis dizer que estava forçando a busca do Google a produzir resultados de busca do meu próprio site BathindaHelper.com)

  • Não criei meu site usando nenhum método anormal/forçado.
  • Não mexi deliberadamente em nada relacionado a TL0+ ou similar.
  • Nas últimas meia hora, descobri que (entre outros pequenos problemas) o meu arquivo robots.txt é o culpado, mas ainda não consegui descobrir como consertar isso.
  • Não me lembro de ter tido problemas de DNS (você está falando de um passado muito distante?). Meu site está funcionando bem, exceto que quando eu/administrador atualizo meu navegador com força, às vezes leva quase 30 a 50 segundos para abrir, mas depois disso funciona bem.

Obrigado por responder.

Editar:
Eu ‘desmarquei’ a opção do arquivo robots:

mas não posso dizer se o Google Search Console está relatando que tudo está ok ou não agora:

Sim, eu errei completamente o pedido. E agora temos uma demonstração do que pode acontecer quando

  • tópicos antigos são respondidos
  • tópicos fora do assunto
  • um usuário não lê os tópicos :joy:

Sim, minha culpa.

2 curtidas

Confira estas configurações:

  • allowed crawler user agents
  • blocked crawler user agents

Mas, até onde sei, o Discourse não tem um robots.txt simples por si só como a maioria dos sites, mas é feito por alguma coisa estranha do ruby, e não há muitas configurações onde um administrador possa ajustá-lo. Exceto essas duas configurações e a desaceleração de bots.

Fui só eu e meus dedos rápidos :man_facepalming:

1 curtida

Você desabilitou isso agora ou antes de a indexação parar?

Especifique em robots.txt que este site pode ser indexado por mecanismos de pesquisa na web.

Se você não permitir que os mecanismos de pesquisa indexem seu site, não me surpreende que eles não o façam.

3 curtidas

Faria e reportaria.

Desativei isso depois de abrir este tópico (cerca de 30 minutos antes de agora). Embora este problema exista há 3 meses. Mas não consegui verificar independentemente se essa ‘desseleção’ conseguiu corrigir a falha de ‘Indexação do Google’ ou não.

Tenho dúvidas se não desativar/bloquear sites pelo Robots.txt, então TODOS OS SITES SÃO PERMITIDOS? Ou é o contrário, que se eu não ATIVAR sites pelo Robots.txt, então todos os sites são BLOQUEADOS da indexação?

Eu esqueci totalmente disso. Você deve marcá-la. Se você não usar isso, deve verificar e editar o robots.txt manualmente para ter certeza de que ele guia os bots como você deseja.

Mas você pode dar uma olhada se encontra algo lá que impeça o Google.

1 curtida

Ok.
Isso significa que todos os usuários do Discourse (normalmente) precisariam especificar/dar um arquivo ‘Robots.txt’.
E então, eu leria o tópico sobre isso (como e o que deveria haver neste arquivo) em detalhes amanhã.

Em segundo lugar, se não for muito complicado de explicar, você pode me dizer alguma maneira fácil com a qual eu possa mexer em algumas configurações no meu painel de Administração do Discourse e, ao mesmo tempo, verificar ao vivo/em tempo real se o Google agora consegue acessar (e então indexar) meu site livremente ou se ele ainda está recebendo o erro ‘Acesso Proibido - 403’?!

Editar: Embora eu mesmo tente encontrar recursos semelhantes no Google agora/depois.

Bem, não. Isso significa que normalmente os administradores mantêm o robots.txt ativado para evitar ajustes manuais :wink: Mas, claro, a lista de bots bloqueados, etc., é o que um administrador quer modificar.

2 curtidas

Você pode verificar qual é a sua configuração para blocked_crawler_user_agents?

1 curtida
  1. Esta configuração é assim (não mudei nada):

  2. Aqui escrevi estes dois domínios google e google.com ontem, como um experimento, não sei se isso tem prioridade sobre ‘Blocked Crawler User Agents’ ou não. Ou se isso resolveu meu problema ou não (porque o google está dizendo que colocou em fila meu pedido de rastreamento/indexação, o que pode levar de 2 a 3 dias):

  3. E você pode encontrar meu 'Robots.txt’ aqui.

Por favor, diga qual tem prioridade se todos os 3 tiverem configurações contraditórias.

Isso não deveria ter efeito, já que o Google usa “Googlebot” e variações dele para rastrear:

3 curtidas

De fato, isso teve o efeito principal!!

Obrigado a todos, muito obrigado por me ajudarem a resolver o principal grande problema, usando esta configuração:

Mas para tantos outros (pequenos) problemas que afetam a indexação do Google, explicados por mim na primeira postagem deste tópico meta, gostaria de manter o tópico aberto.

Além disso, ficaria grato se alguém pudesse me dizer o que acontece se eu bloquear o Crawler-1 de um site em blocked Crawler User Agents e, ao mesmo tempo, permitir o mesmo em Allowed Crawler User Agents.
E o que acontece se eu o permitir em Allowed... mas bloqueá-lo através do Robots.txt. O que tem prioridade.

Você deve remover compatible. Ele bloqueia praticamente tudo, incluindo o googlebot. Por causa disso:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

E bloquear o facebook também não é uma boa ideia, se você compartilhar tópicos no Facebook.

Tudo o que você usa na blocklist, bloqueia todos os bots que têm essa palavra na string do seu user agent. Então, fique atento.

3 curtidas

Ah, talvez seja por isso que ainda estou recebendo um erro ao tentar rastrear/indexar qualquer tópico (exceto a página inicial) através do Google Search Console:

Mas por que (mesmo quando compatible estava bloqueado) apenas a página inicial está disponível para o Google Search Console, como mostrado abaixo:

Acabei de remover o ‘Compatible’ e voltarei para relatar.

Finalmente!!! Parece que superei o erro ‘proibido’ para a página principal/inicial e tópicos individuais, com 90% de ajuda da sua parte e 10% de experimentação da minha parte. Muito obrigado.

Após remover ‘Compatible’ da lista ‘Blocked Crawlers’, encontrei uma nota sob outra configuração que, estupidamente, ignorei, que essencialmente pedia aos usuários para não preencherem nenhum valor em ‘Allowed Crawler User Agents’, a menos que tivessem certeza do que estavam fazendo. Então era aqui! Ignorar o aviso escrito em maiúsculas me trouxe tantos meses de o Google ignorar meu site e tantos problemas:


Para quem vier a este tópico procurando pelo erro Access Forbidden-403 no Google Search Console:

  • Principalmente 2 coisas resolveram meus problemas, uma foi remover ‘Compatible’ da ‘Blocked Crawlers List’ e
  • Esvaziar (como está por padrão) a configuração ‘Allowed User Crawler Agents’.

O tópico permanecerá aberto para outras questões do Google Search (embora não tão críticas quanto esta).

1 curtida