Indexação de Pesquisa Google e Discurso

Olá @kirupa,

Apenas para seu conhecimento, quando o Google indexa dois sites no mesmo domínio, por exemplo, no seu caso kirupa.com com conteúdo semelhante, normalmente a chamada “penalidade” (na verdade, não é bem uma “penalidade” propriamente dita; é mais uma “seleção canônica”) ocorre porque o algoritmo do Google seleciona uma das páginas como canônica, e essa página terá melhor classificação nos resultados de busca. (O Google pode até remover do índice a página que ele considerar não canônica).

O Google tem sido bastante claro sobre isso: a ideia de uma “penalidade por conteúdo duplicado” é, na maior parte, um mito. Trata-se realmente de “canonização” e “seleção”:

Se seu site contém várias páginas com conteúdo amplamente idêntico, existem várias maneiras de indicar sua URL preferida ao Google. (Isso é chamado de “canonização”). Mais informações sobre canonização. (Ref 1)

Por exemplo, se você mantiver seu site antigo ativo junto com o novo, pode usar a tag link canonical para informar ao Google que seu novo site é o site canônico, e o Google priorizará seu novo site.

Uma solução melhor é permitir que os mecanismos de busca rastreiem esses URLs, mas marcá-los como duplicados usando o elemento de link rel="canonical", a ferramenta de tratamento de parâmetros de URL ou redirecionamentos 301. Em casos em que o conteúdo duplicado faz com que rastreemos excessivamente seu site, você também pode ajustar a configuração de taxa de rastreamento no Search Console. (Ref 1)

Exemplo:

<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />

@kirupa, você também perguntou:

Cada tópico é considerado uma “página” indexável pelo Google? A razão pela qual pergunto é que grande parte dos tópicos em nosso fórum não está no banco de dados do Google.

Para uma ótima (embora um pouco desatualizada) discussão sobre o Google e a rolagem infinita, recomendo o Blog Oficial do Webmaster Central do Google, (Ref 2):

https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

@kirupa, uma maneira prática de verificar (na prática, não apenas na teoria) é usar o GSC e examinar a “captura de tela” de como ele representa sua página. Isso é facilmente feito com a função “verificar compatibilidade com dispositivos móveis” no GSC (por exemplo); e se você tiver uma postagem muito longa no Discourse, poderá verificar quanto dessa página o Google indexa (lê e indexa). Há muitas opiniões sobre a rolagem infinita e como o Google indexa essas páginas. Você pode usar o GSC para verificar suas páginas e ver por si mesmo.

De acordo com Martin Splitt, do Google (veja a Referência 3), em 14 de abril de 2020:

Splitt forneceu o exemplo de um site de notícias que depende da rolagem infinita (também chamada de “carregamento preguiçoso”) para carregar novo conteúdo.

Isso significa que a página da web, neste caso a página inicial, não carrega conteúdo adicional até que um visitante role até o final da tela.

Splitt explica por que isso é um problema: “O que o Googlebot não faz? Ele não rola.”

O que o Googlebot faz é acessar uma página e rastrear o que está imediatamente visível.

De acordo com o que Splitt declarou, o Googlebot não consegue rastrear conteúdo que é carregado apenas após a rolagem da página.

Como mencionado, @kirupa, você pode verificar suas próprias páginas usando ferramentas no GSC, que mostrarão uma instantânea de como o Google visualiza (e indexa) suas páginas.

De acordo com Splitt, do Google, em abril de 2020: “O Googlebot não rola.” (parafraseando)

Em relação à questão sobre “indexação de pesquisa do Google e Discourse”, todo proprietário de site pode facilmente usar o GSC para determinar como o Googlebot indexa uma página específica.

Minha recomendação, e espero que isso ajude de alguma forma, é usar o GSC (Google Search Console) para verificar suas próprias páginas caso tenha dúvidas sobre como o Googlebot indexa suas páginas.

Referências:

  1. How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers

  2. https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

  3. Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems