Indexação de Pesquisa Google e Discurso

Olá a todos!

Li os vários posts sobre o rastreador do Google não ter dificuldades em indexar um fórum Discourse. Minha pergunta é um pouco diferente. Cada tópico é considerado uma “página” indexável pelo Google? A razão pela qual pergunto é que uma grande parte dos tópicos em nosso fórum não está no banco de dados do Google. Isso é confirmado ao analisar os dados do Google Search Console:

Existem apenas cerca de 17 mil entradas, e os fóruns têm várias centenas de milhares de tópicos (talvez milhões?). Os erros no robots.txt são para páginas que, legitimamente, não devem ser indexadas. O que isso parece indicar é que o rastreador não está visitando automaticamente todos os tópicos mais antigos como deveria.

Existe alguma configuração que eu precise ativar para garantir que mais tópicos antigos sejam indexados de maneira oportuna? Para itens acima da dobra, a indexação e os resultados do Google são bastante bons. Isso está afetando apenas tópicos que acabam ficando abaixo da dobra.

Obrigado,
Kirupa

Para um experimento, carreguei o Meta usando a visualização de rastreador com a string de user-agent do GoogleBot. Em seguida, fui até a página 666 da nossa lista mais recente, que contém tópicos atualizados pela última vez em meados de 2017, quase 3 anos atrás.

Um dos tópicos na lista é Integração profunda do Discourse em um aplicativo Ionic. Fiz uma pesquisa no Google sem estar logado e a busca por “integração discourse ionic” o colocou como o primeiro resultado!!

O Meta é uma instância “pequena” com menos de 30 mil tópicos, mas todos parecem estar indexados corretamente. Como é um domínio antigo e somos o resultado nº 1 para tudo relacionado ao Discourse, temos “karma” suficiente junto ao GoogleBot, então ele roda em nosso domínio por tempo suficiente para rastrear tudo o que é necessário.

Seu fórum passou por uma migração de um software antigo para o Discourse?

Se precisar acelerar a indexação, você pode tentar o plugin de sitemap.

A raspagem padrão captura tudo, mas o sitemap pode fazer com que o conteúdo seja indexado mais rapidamente.

Por favor, compartilhe os resultados se fizer isso.

Além disso, você pode postar 5 exemplos de conteúdo único e excelente que você tem no seu fórum e que está 100% ausente no Google?

Talvez o Google também verifique a participação no tópico (se houver um contador) ou se o tópico possui links com transições ativas. O Google pode não visitar certas páginas que considera “não interessantes” para os usuários. Existe um truque, geralmente verificado da seguinte forma: isso é SEO. Coloque um link de algum outro recurso e clique nele. Você não precisa de muito, apenas alguns (transições). Isso geralmente é suficiente para despertar o interesse do Google. Para onde as pessoas vão, ele também vai.

Em sites grandes do Google, não basta saber que a página existe. Ele precisa de mais sinais: atividade, taxas de clique, visualizações, etc.

@Falco - sim, os fóruns passaram por uma migração do vBulletin, mas isso foi no final de 2014. Removi todos os links públicos para os fóruns antigos, então não há risco de conteúdo duplicado prejudicar a indexação nos motores de busca.

@sam - sim, aqui estão alguns exemplos:

Todas essas postagens foram feitas por mim no Twitter ou em uma página pública do Facebook em algum momento nos últimos três anos, então não se trata de algo enterrado e escondido para sempre.

Sobre o plugin do sitemap, vou tentar. Vou publicar qualquer dado que conseguir encontrar. Obrigado a todos por dedicarem um tempo para ajudar :slight_smile:

Abraços,
Kirupa

Esse é o meu terceiro resultado para “exemplo de animação usando geradores em js”.

Isso pode ter sido um mau exemplo para eu postar hoje, pois eu submeti aquele manualmente para indexação algumas horas atrás como teste. Isso é o que um dos administradores do meu fórum viu mais cedo para este termo de busca, há 7 horas:

Você está correto ao dizer que é um dos principais resultados agora. Eu me pergunto se a indexação manual teve algo a ver com isso.

EDIT: Acabei de configurar o plug-in Sitemap e vou enviar o sitemap ao Google para indexação!

Olá @kirupa,

Apenas para seu conhecimento, quando o Google indexa dois sites no mesmo domínio, por exemplo, no seu caso kirupa.com com conteúdo semelhante, normalmente a chamada “penalidade” (na verdade, não é bem uma “penalidade” propriamente dita; é mais uma “seleção canônica”) ocorre porque o algoritmo do Google seleciona uma das páginas como canônica, e essa página terá melhor classificação nos resultados de busca. (O Google pode até remover do índice a página que ele considerar não canônica).

O Google tem sido bastante claro sobre isso: a ideia de uma “penalidade por conteúdo duplicado” é, na maior parte, um mito. Trata-se realmente de “canonização” e “seleção”:

Se seu site contém várias páginas com conteúdo amplamente idêntico, existem várias maneiras de indicar sua URL preferida ao Google. (Isso é chamado de “canonização”). Mais informações sobre canonização. (Ref 1)

Por exemplo, se você mantiver seu site antigo ativo junto com o novo, pode usar a tag link canonical para informar ao Google que seu novo site é o site canônico, e o Google priorizará seu novo site.

Uma solução melhor é permitir que os mecanismos de busca rastreiem esses URLs, mas marcá-los como duplicados usando o elemento de link rel="canonical", a ferramenta de tratamento de parâmetros de URL ou redirecionamentos 301. Em casos em que o conteúdo duplicado faz com que rastreemos excessivamente seu site, você também pode ajustar a configuração de taxa de rastreamento no Search Console. (Ref 1)

Exemplo:

<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />

@kirupa, você também perguntou:

Cada tópico é considerado uma “página” indexável pelo Google? A razão pela qual pergunto é que grande parte dos tópicos em nosso fórum não está no banco de dados do Google.

Para uma ótima (embora um pouco desatualizada) discussão sobre o Google e a rolagem infinita, recomendo o Blog Oficial do Webmaster Central do Google, (Ref 2):

https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

@kirupa, uma maneira prática de verificar (na prática, não apenas na teoria) é usar o GSC e examinar a “captura de tela” de como ele representa sua página. Isso é facilmente feito com a função “verificar compatibilidade com dispositivos móveis” no GSC (por exemplo); e se você tiver uma postagem muito longa no Discourse, poderá verificar quanto dessa página o Google indexa (lê e indexa). Há muitas opiniões sobre a rolagem infinita e como o Google indexa essas páginas. Você pode usar o GSC para verificar suas páginas e ver por si mesmo.

De acordo com Martin Splitt, do Google (veja a Referência 3), em 14 de abril de 2020:

Splitt forneceu o exemplo de um site de notícias que depende da rolagem infinita (também chamada de “carregamento preguiçoso”) para carregar novo conteúdo.

Isso significa que a página da web, neste caso a página inicial, não carrega conteúdo adicional até que um visitante role até o final da tela.

Splitt explica por que isso é um problema: “O que o Googlebot não faz? Ele não rola.”

O que o Googlebot faz é acessar uma página e rastrear o que está imediatamente visível.

De acordo com o que Splitt declarou, o Googlebot não consegue rastrear conteúdo que é carregado apenas após a rolagem da página.

Como mencionado, @kirupa, você pode verificar suas próprias páginas usando ferramentas no GSC, que mostrarão uma instantânea de como o Google visualiza (e indexa) suas páginas.

De acordo com Splitt, do Google, em abril de 2020: “O Googlebot não rola.” (parafraseando)

Em relação à questão sobre “indexação de pesquisa do Google e Discourse”, todo proprietário de site pode facilmente usar o GSC para determinar como o Googlebot indexa uma página específica.

Minha recomendação, e espero que isso ajude de alguma forma, é usar o GSC (Google Search Console) para verificar suas próprias páginas caso tenha dúvidas sobre como o Googlebot indexa suas páginas.

Referências:

  1. How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers

  2. https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

  3. Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems

Obrigado pela resposta realmente ótima, @neounix! Vou revisar e seguir suas sugestões em breve :slight_smile:

Desocultar os fóruns antigos (kirupaForum) e adicionar a meta tag canônica no fórum novo/ativo parece ser uma boa ideia. Vou experimentar isso esta semana.

Enquanto isso, enviei um sitemap com cerca de 300 mil entradas para o Google Search Console.

Prezado @kirupa,

De nada.

Apenas para sua informação:

Os fóruns Discourse já adicionam a tag canonical aos tópicos.

Aqui está um link do seu fórum, e o código-fonte mostrando isso em um dos seus exemplos (acima):

Screen Shot 2020-06-09 at 1.48.45 PM

Você pode ver que sua página do Discourse já possui uma tag canonical.

Um “truque” (não oficialmente suportado, mas viável) é adicionar essa mesma tag nos seus “fóruns antigos” (apontando para os novos fóruns) ou, pelo menos, garantir que seus fóruns antigos não tenham uma tag canonical.

No entanto, para ser honesto, obter o ID correto do tópico dos fóruns Discourse no banco de dados dos seus fóruns antigos exige algum trabalho (fizemos isso por outros motivos, então sei, por experiência própria, que é viável, pois usamos essas informações em ambos os fóruns atualmente).

Existe uma tabela de banco de dados chamada “post custom fields” no Discourse que contém o mapeamento entre os IDs de tópicos e posts dos seus fóruns antigos; e você poderia (se desejar) exportar esses dados do Discourse e adicioná-los aos seus fóruns antigos.

Então, você poderia (se quisesse, não estou recomendando um caminho ou outro) criar facilmente uma tag canonical nos seus fóruns antigos que aponte para seus novos fóruns Discourse, se assim desejar (com base no seu SEO e na forma como deseja abordar isso).

Algumas pessoas preferem fazer um redirecionamento 301 das páginas dos fóruns antigos. Tudo depende de você e de como deseja gerenciar as coisas! Lembre-se: se quiser fazer um redirecionamento 301, também será necessário ter os mapeamentos entre os IDs de tópicos (e posts) do Discourse e os IDs de tópicos e posts dos seus fóruns antigos.

Espero que esse rápido acompanhamento ajude, @kirupa.

Melhores desejos e bom proveito!