Problemas que o Google Search Console está indicando para mim devido à estrutura de discurso incorreta (ou alguma má administração do meu site)

Bathinda · Dezembro 17, 2024, 9:22am

Após o fim da histeria inicial (que pode tomar conta de uma pessoa que descobre que, nos últimos quase seis meses, o Google não estava prestando atenção ao seu site e ele nem sabia disso!!),

Tentarei listar aqui apenas as causas relacionadas ao código do Discourse, ou seja, que não podem ser corrigidas nem pelo Google, nem por mim (pelo que posso dizer), mas pela equipe do Discourse.

Bloqueado por Robots.txt:

image396×173 7.54 KB
Erro do Servidor 5xx

Uma notificação por e-mail do Google Search Console sobre páginas sendo indexadas devido a um erro do servidor. (Legenda por IA)378×352 14.9 KB
Conteúdo mais largo que a tela e Elementos clicáveis muito próximos para clicar (na tela do celular)

Um e-mail de notificação alertando sobre novos problemas de usabilidade móvel detectados para um site, com recomendações para corrigir os problemas para permitir a melhor experiência e cobertura na Pesquisa Google. (Legenda por IA)398×538 27.1 KB
Problemas de dados estruturados do Fórum de Discussão:

image385×244 12.9 KB
Problemas de indexação de vídeo, mas sem outros detalhes:

A imagem mostra uma notificação sobre problemas de indexação de vídeo em um site. (Legenda por IA)376×512 25.1 KB

Ao clicar em ‘Relatório de indexação de vídeo’:

E ao clicar no link ‘Melhorias > Vídeos’:

Por favor, ajude.

Bathinda · Dezembro 17, 2024, 10:49am

Anteriormente, quando me deparei com o problema (tudo isso pode ser pulado)::

Após vários meses perdendo usuários, hoje descobri que meu site foi bloqueado/proibido pelo Google!!!

Mais cedo, como descobri este problema, tudo pode ser pulado:

Li quase todo o tópico do meta antes de perguntar.

Em agosto de 2024, notei que o tráfego para meu site havia diminuído em até 95%. Mas ignorei, pensando que talvez eu não estivesse postando o suficiente.

Mas hoje descobri que, não importa qual termo eu procurasse no Google, restringindo a pesquisa apenas ao meu próprio site: ***site:BathindaHelper.com jobs in bathinda***, ele estava retornando ZERO resultado (o único resultado que ele mostra do meu site é, na verdade, apenas uma sugestão para eu criar anúncios do Google para mostrar este resultado do meu site, o que indica que meu site FOI realmente indexado):

E, finalmente, também verifiquei o Google Analytics (talvez renomeado para Google Events) e ele mostra claramente que, a partir de 17 de junho de 2024, o Google não está mais encaminhando tráfego para o meu site.

Jagster · Dezembro 17, 2024, 11:58am

Quando você criou seu site, usou login forçado ou parou de mostrar tópicos TL0+? O Google só pode usar um site se ele for visível para o mundo. Ou você bloqueou os user agents do Google.

Este é o mesmo fórum onde você teve problemas de DNS?

Moin · Dezembro 17, 2024, 12:02pm

Você está perguntando por causa de Site does not appear in google searches - #2 by Bathinda? Acho que a resposta abaixo está respondendo à pergunta do OP.

Bathinda · Dezembro 17, 2024, 12:05pm

Eu usei a palavra ‘force’ incorretamente. (Eu quis dizer que estava forçando a busca do Google a produzir resultados de busca do meu próprio site BathindaHelper.com)

Não criei meu site usando nenhum método anormal/forçado.
Não mexi deliberadamente em nada relacionado a TL0+ ou similar.
Nas últimas meia hora, descobri que (entre outros pequenos problemas) o meu arquivo robots.txt é o culpado, mas ainda não consegui descobrir como consertar isso.
Não me lembro de ter tido problemas de DNS (você está falando de um passado muito distante?). Meu site está funcionando bem, exceto que quando eu/administrador atualizo meu navegador com força, às vezes leva quase 30 a 50 segundos para abrir, mas depois disso funciona bem.

Obrigado por responder.

Editar:
Eu ‘desmarquei’ a opção do arquivo robots:

mas não posso dizer se o Google Search Console está relatando que tudo está ok ou não agora:

Jagster · Dezembro 17, 2024, 12:12pm

Sim, eu errei completamente o pedido. E agora temos uma demonstração do que pode acontecer quando

tópicos antigos são respondidos
tópicos fora do assunto
um usuário não lê os tópicos

Sim, minha culpa.

Jagster · Dezembro 17, 2024, 12:24pm

Confira estas configurações:

allowed crawler user agents
blocked crawler user agents

Mas, até onde sei, o Discourse não tem um robots.txt simples por si só como a maioria dos sites, mas é feito por alguma coisa estranha do ruby, e não há muitas configurações onde um administrador possa ajustá-lo. Exceto essas duas configurações e a desaceleração de bots.

Fui só eu e meus dedos rápidos

Moin · Dezembro 17, 2024, 12:34pm

Você desabilitou isso agora ou antes de a indexação parar?

Especifique em robots.txt que este site pode ser indexado por mecanismos de pesquisa na web.

Se você não permitir que os mecanismos de pesquisa indexem seu site, não me surpreende que eles não o façam.

Bathinda · Dezembro 17, 2024, 1:45pm

Faria e reportaria.

Desativei isso depois de abrir este tópico (cerca de 30 minutos antes de agora). Embora este problema exista há 3 meses. Mas não consegui verificar independentemente se essa ‘desseleção’ conseguiu corrigir a falha de ‘Indexação do Google’ ou não.

Tenho dúvidas se não desativar/bloquear sites pelo Robots.txt, então TODOS OS SITES SÃO PERMITIDOS? Ou é o contrário, que se eu não ATIVAR sites pelo Robots.txt, então todos os sites são BLOQUEADOS da indexação?

Jagster · Dezembro 17, 2024, 1:49pm

Eu esqueci totalmente disso. Você deve marcá-la. Se você não usar isso, deve verificar e editar o robots.txt manualmente para ter certeza de que ele guia os bots como você deseja.

Mas você pode dar uma olhada se encontra algo lá que impeça o Google.

Bathinda · Dezembro 17, 2024, 1:54pm

Ok.
Isso significa que todos os usuários do Discourse (normalmente) precisariam especificar/dar um arquivo ‘Robots.txt’.
E então, eu leria o tópico sobre isso (como e o que deveria haver neste arquivo) em detalhes amanhã.

Em segundo lugar, se não for muito complicado de explicar, você pode me dizer alguma maneira fácil com a qual eu possa mexer em algumas configurações no meu painel de Administração do Discourse e, ao mesmo tempo, verificar ao vivo/em tempo real se o Google agora consegue acessar (e então indexar) meu site livremente ou se ele ainda está recebendo o erro ‘Acesso Proibido - 403’?!

Editar: Embora eu mesmo tente encontrar recursos semelhantes no Google agora/depois.

Jagster · Dezembro 17, 2024, 1:57pm

Bem, não. Isso significa que normalmente os administradores mantêm o robots.txt ativado para evitar ajustes manuais Mas, claro, a lista de bots bloqueados, etc., é o que um administrador quer modificar.

nat · Dezembro 18, 2024, 9:38am

Você pode verificar qual é a sua configuração para blocked_crawler_user_agents?

Bathinda · Dezembro 18, 2024, 11:06am

Esta configuração é assim (não mudei nada):

Uma captura de tela mostrando uma página de configurações com opções para bloquear e desacelerar agentes de usuário de rastreadores específicos. (Legenda por IA)808×252 20.9 KB
Aqui escrevi estes dois domínios google e google.com ontem, como um experimento, não sei se isso tem prioridade sobre ‘Blocked Crawler User Agents’ ou não. Ou se isso resolveu meu problema ou não (porque o google está dizendo que colocou em fila meu pedido de rastreamento/indexação, o que pode levar de 2 a 3 dias):

A imagem é uma captura de tela de uma página de configurações com opções para agentes de usuário de rastreadores permitidos e bloqueados, com funcionalidade de pesquisa ou criação. (Legenda por IA)755×163 6.2 KB
E você pode encontrar meu 'Robots.txt’ aqui.

Por favor, diga qual tem prioridade se todos os 3 tiverem configurações contraditórias.

Firepup650 · Dezembro 18, 2024, 11:42am

Isso não deveria ter efeito, já que o Google usa “Googlebot” e variações dele para rastrear:

Bathinda · Dezembro 18, 2024, 11:49am

De fato, isso teve o efeito principal!!

Obrigado a todos, muito obrigado por me ajudarem a resolver o principal grande problema, usando esta configuração:

Mas para tantos outros (pequenos) problemas que afetam a indexação do Google, explicados por mim na primeira postagem deste tópico meta, gostaria de manter o tópico aberto.

Além disso, ficaria grato se alguém pudesse me dizer o que acontece se eu bloquear o Crawler-1 de um site em blocked Crawler User Agents e, ao mesmo tempo, permitir o mesmo em Allowed Crawler User Agents.
E o que acontece se eu o permitir em Allowed... mas bloqueá-lo através do Robots.txt. O que tem prioridade.

Jagster · Dezembro 18, 2024, 12:20pm

Você deve remover compatible. Ele bloqueia praticamente tudo, incluindo o googlebot. Por causa disso:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

E bloquear o facebook também não é uma boa ideia, se você compartilhar tópicos no Facebook.

Tudo o que você usa na blocklist, bloqueia todos os bots que têm essa palavra na string do seu user agent. Então, fique atento.

Bathinda · Dezembro 18, 2024, 12:24pm

Ah, talvez seja por isso que ainda estou recebendo um erro ao tentar rastrear/indexar qualquer tópico (exceto a página inicial) através do Google Search Console:

Mas por que (mesmo quando compatible estava bloqueado) apenas a página inicial está disponível para o Google Search Console, como mostrado abaixo:

Acabei de remover o ‘Compatible’ e voltarei para relatar.

Bathinda · Dezembro 18, 2024, 12:41pm

Finalmente!!! Parece que superei o erro ‘proibido’ para a página principal/inicial e tópicos individuais, com 90% de ajuda da sua parte e 10% de experimentação da minha parte. Muito obrigado.

Após remover ‘Compatible’ da lista ‘Blocked Crawlers’, encontrei uma nota sob outra configuração que, estupidamente, ignorei, que essencialmente pedia aos usuários para não preencherem nenhum valor em ‘Allowed Crawler User Agents’, a menos que tivessem certeza do que estavam fazendo. Então era aqui! Ignorar o aviso escrito em maiúsculas me trouxe tantos meses de o Google ignorar meu site e tantos problemas:

Para quem vier a este tópico procurando pelo erro Access Forbidden-403 no Google Search Console:

Principalmente 2 coisas resolveram meus problemas, uma foi remover ‘Compatible’ da ‘Blocked Crawlers List’ e
Esvaziar (como está por padrão) a configuração ‘Allowed User Crawler Agents’.

O tópico permanecerá aberto para outras questões do Google Search (embora não tão críticas quanto esta).

Tópico		Respostas	Visualizações
Why isn't Google Indexing Discourse? SEO concerns Support seo	31	5363	1 de Junho de 2024
Needing to edit robots.txt file - where is it? Support	42	7631	29 de Abril de 2023
Google complaining – Indexed, though blocked by robots.txt Support	24	2513	28 de Setembro de 2023
Malformed robots.txt causing issues with indexing Support	9	1864	21 de Abril de 2023
Sitelinks in Google disappearing Community Building	26	1486	27 de Janeiro de 2023

Problemas que o Google Search Console está indicando para mim devido à estrutura de discurso incorreta (ou alguma má administração do meu site)

Anteriormente, quando me deparei com o problema (tudo isso pode ser pulado)::

Mais cedo, como descobri este problema, tudo pode ser pulado:

Para quem vier a este tópico procurando pelo erro Access Forbidden-403 no Google Search Console:

Tópicos relacionados