Por que o Google não está indexando o Discourse? Questões de SEO

Não tenho certeza por que o Google não está indexando o conteúdo da nossa comunidade Discourse.

Veja esta página aqui: Welcome to the Appsmith Community | Appsmith Community Portal

O título é bastante único. Eu imaginaria que, ao copiar e colar o título no Google, o primeiro link seria o URL acima.

Em vez disso, o que eu obtenho é isto: Não só não é o primeiro link, como nem aparece.

O que estou fazendo de errado?

2 curtidas

Pode haver muiiiiiitos motivos para isso.

O googlebot realmente rastreia seu site? Verifique mysite.com/admin/reports/web_crawlers

O googlebot está bloqueado ou com limite de taxa? Verifique mysite.com/admin/site_settings/category/security?filter=crawler%20user%20agents

Você adicionou seu site ao Google Search Console?

Pessoas com auto-hospedagem podem até instalar o seguinte plug-in para ajudar

2 curtidas

O plugin Sitemap também está disponível em nossos planos Business e Enterprise.

Provavelmente nada. Por algum motivo, o Google parece dar ao “Como faço X” uma prioridade maior do que o tópico real com esse título exato. Por quê? Não tenho certeza. Pode ser apenas uma IA tomando essa decisão com base em padrões desconhecidos.

6 curtidas

Ou Padrões do Google que ninguém conhece :wink:

2 curtidas

Bem, isso é um grande problema para nós, então. Vamos investigar isso, mas meio que anula todo o propósito, pois não podemos esperar que as pessoas “passem por” todos os tópicos da comunidade. Na prática, a maioria das pessoas pesquisará no Google por seu problema (mesmo que sejam membros da comunidade) para chegar à resposta.

2 curtidas

É realmente difícil dizer o que está acontecendo com o Google no seu caso. Eu me permiti dar uma olhada mais de perto nas estatísticas do seu rastreador e, à primeira vista, parece que o rastreador do Google não está visitando sua comunidade com muita frequência. Você já tentou obter informações do Google Search Console? Talvez haja alguma informação lá que possa ajudar a resolver isso.

Estou vendo o mesmo comportamento para uma pequena parte dos tópicos criados recentemente aqui no Meta. Vou discutir isso com nossa equipe para descobrir se há algo que possamos fazer ou se é simplesmente o Google sendo o Google. Manterei você atualizado.

Além disso, você viu nossos dois posts no blog sobre SEO?

2 curtidas

Esse comportamento do Google começou há meses e, infelizmente, está piorando.

O sitemap no meu caso não ajudou…

1 curtida

Sim, essa é a primeira pergunta que eu faria.

4 curtidas

Bem… nosso site é appsmith.com, então todos os subdomínios e subpastas de appsmith.com seriam idealmente indexados quando enviarmos appsmith.com para o GSC, certo?

Já adicionei community.appsmith.com (nosso fórum discourse) ao GSC hoje mesmo, mas não tenho certeza se isso vai mudar alguma coisa.

Eu adicionaria o subdomínio como uma propriedade independente no seu GSC e enviaria um sitemap dedicado para o subdomínio.

1 curtida

@constantine

Seu fórum está sendo indexado desde maio de 2021

Yep :slight_smile:

Isso parece ser um problema então. Pois definitivamente não podemos continuar se o Google não indexar posts individuais, pois isso meio que anula o objetivo de ter a comunidade (já que a maioria das pessoas descobrirá conteúdo do Google - incluindo nossos usuários atuais - em vez de passar pelas categorias no Discourse).

E isso não parece ser um problema apenas no nosso Discourse, mas até mesmo neste fórum (meta.discourse.org).

Para demonstrar isso, pesquisei no Google o título desta postagem e este é o resultado que obtive:

Basicamente, para pessoas que acabam usando a comunidade Discourse como uma base de conhecimento (o que, claro, muitas empresas fazem), isso se torna um grande problema.

Seguimos praticamente a maioria das diretrizes dadas nos 2 blogs sobre SEO que foram compartilhados acima, nosso conteúdo é rico, detalhado, altamente técnico. No entanto, quando as pessoas pesquisam por ele, ele não aparece.

Então, perguntas sinceras, pessoal: Dado o nosso caso de uso (que é criar uma base de conhecimento através de consultas de suporte, que também pode ajudar em SEO), e vendo o problema em questão, você recomendaria que simplesmente começássemos a planejar a busca por uma alternativa?

1 curtida

Aqui está um extrato do Google

A indexação do seu conteúdo pelo Google é determinada por algoritmos do sistema que levam em consideração a demanda do usuário e verificações de qualidade.

Lembre-se também que apenas usuários TL3 e acima têm os links nofollow desativados.

Aqui está algo para ler

Em outras palavras, minhas postagens têm mais “peso” do que as suas.

Minhas desculpas, você está certo :+1:

1 curtida

@constantine Parece que o Google está preferindo páginas no subdomínio https://docs.appsmith.com em vez de páginas em https://community.appsmith.com

A maioria dos resultados de pesquisa é de docs.appsmith.com
Google Search

Um palpite: a preferência do Google por um subdomínio em vez do outro pode ser influenciada pelos “Core Web Vitals” Largest Contentful Paint (LCP)
O relatório simulado em https://pagespeed.web.dev/ é “bugado” pelo Discourse. É melhor verificar o relatório do Google Search Console “Experiência” → “Core Web Vitals” para o seu domínio.

Apenas uma atualização, pessoal, nós hospedamos o discourse internamente e enviamos o sitemap para o Search Console, e agora nosso conteúdo está sendo indexado pelo Google. Então, talvez haja algo de errado com a versão hospedada na nuvem?

Não tenho certeza se isso está relacionado a sitemaps ou hospedagem em nuvem. O Meta é hospedado na AWS, que é um local completamente diferente de onde hospedamos muitos de nossos outros clientes, e começamos a ver resultados muito inconsistentes para o Meta ultimamente e para vários sites em várias opções de hospedagem.

Tenho tentado ajustar algumas coisas para ver se algo ajuda.

  • Não seguimos mais links para .rss, o que impede o Google de rastrear variantes /1 /2 etc. de um tópico que compartilham o mesmo canônico.

  • Dizemos explicitamente ao Google para não seguir links dentro do feed .rss, caso ele receba um feed rss.

  • Desativei temporariamente alguns ajustes canônicos que fizemos - que mostraram promessa: Search engines now blocked from indexing non-canonical pages
    Os sintomas que estou observando aqui no Meta são que

  1. O Google está rastreando TODO o conteúdo, posso ver isso nos weblogs
  2. Apesar de rastrear as páginas, cerca de 50% dos novos tópicos recentes do Meta não estão aparecendo no índice.

Isso é extremamente preocupante, o Google nos dá muito pouca visibilidade de “por quê?” aqui.

Meu próximo passo é obter mais dados e um relatório contínuo. Provavelmente usaremos o serpapi para descobrir quais páginas estão faltando no Google e tentar descobrir um padrão.

5 curtidas

Porque a Meta, significando OPs aqui, não usa “porquê” como o Google quer? Fiz algumas experiências e mesmo que o contexto permaneça o mesmo, usar frases diferentes muda os resultados da pesquisa. Como esperado.

E… o histórico de pesquisa pessoal é uma coisa grande e não tão boa. Meus resultados apontam com bastante frequência para outro lugar que não a Meta, porque estou fazendo pesquisas aqui, não através do Google.

Sim. Ainda assim, o Discourse pode ter alguns problemas com o Google, e isso pode ou não vir do “status do fórum”, onde o Google não reage aos fóruns da mesma forma que a um site comum. Ou existem alguns problemas técnicos — mesmo que essa seja a razão raramente.

É a mesma coisa que eu fiz, após um período inicial de melhoria, ele volta a ser ignorado.
Depois de dois meses, mesmo as novas threads no sitemap não estão sendo indexadas, é uma situação que já dura meses e perdemos muitas visualizações.

Queremos tentar isto por um mês e se não melhorar, mudaremos de software :sob:

Verifique o relatório do Google Search Console “Index” → “Coverage” para as páginas “missing”. Isso pode não mostrar “porquê”, mas “o que está acontecendo”.

  1. Abra “Index” → “Coverage” para o seu domínio.

  2. Selecione “All submitted pages”

  3. Veja especialmente “Excluded”

Descrição das diferentes fases: Page indexing report - Search Console Help

Minha suposição sobre o Google: “Crawled - currently not indexed” tem um limite superior definido pelo Google - enquanto houver muitas páginas nesse estado, novas páginas entrarão no índice do Google muito lentamente.


Sobre o desempenho do rastreador do Google, veja o relatório do Google Search Console “Settings” → “Crawl stats”

Aqui, especialmente a linha do tempo e o desenvolvimento do “average response time” são interessantes: resposta mais rápida = mais solicitações de rastreamento

E também “By purpose” é interessante: