Olá @kirupa,
Apenas para seu conhecimento, quando o Google indexa dois sites no mesmo domínio, por exemplo, no seu caso kirupa.com com conteúdo semelhante, normalmente a chamada “penalidade” (na verdade, não é bem uma “penalidade” propriamente dita; é mais uma “seleção canônica”) ocorre porque o algoritmo do Google seleciona uma das páginas como canônica, e essa página terá melhor classificação nos resultados de busca. (O Google pode até remover do índice a página que ele considerar não canônica).
O Google tem sido bastante claro sobre isso: a ideia de uma “penalidade por conteúdo duplicado” é, na maior parte, um mito. Trata-se realmente de “canonização” e “seleção”:
Se seu site contém várias páginas com conteúdo amplamente idêntico, existem várias maneiras de indicar sua URL preferida ao Google. (Isso é chamado de “canonização”). Mais informações sobre canonização. (Ref 1)
Por exemplo, se você mantiver seu site antigo ativo junto com o novo, pode usar a tag link canonical para informar ao Google que seu novo site é o site canônico, e o Google priorizará seu novo site.
Uma solução melhor é permitir que os mecanismos de busca rastreiem esses URLs, mas marcá-los como duplicados usando o elemento de link
rel="canonical", a ferramenta de tratamento de parâmetros de URL ou redirecionamentos 301. Em casos em que o conteúdo duplicado faz com que rastreemos excessivamente seu site, você também pode ajustar a configuração de taxa de rastreamento no Search Console. (Ref 1)
Exemplo:
<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />
@kirupa, você também perguntou:
Cada tópico é considerado uma “página” indexável pelo Google? A razão pela qual pergunto é que grande parte dos tópicos em nosso fórum não está no banco de dados do Google.
Para uma ótima (embora um pouco desatualizada) discussão sobre o Google e a rolagem infinita, recomendo o Blog Oficial do Webmaster Central do Google, (Ref 2):
https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html
@kirupa, uma maneira prática de verificar (na prática, não apenas na teoria) é usar o GSC e examinar a “captura de tela” de como ele representa sua página. Isso é facilmente feito com a função “verificar compatibilidade com dispositivos móveis” no GSC (por exemplo); e se você tiver uma postagem muito longa no Discourse, poderá verificar quanto dessa página o Google indexa (lê e indexa). Há muitas opiniões sobre a rolagem infinita e como o Google indexa essas páginas. Você pode usar o GSC para verificar suas páginas e ver por si mesmo.
De acordo com Martin Splitt, do Google (veja a Referência 3), em 14 de abril de 2020:
Splitt forneceu o exemplo de um site de notícias que depende da rolagem infinita (também chamada de “carregamento preguiçoso”) para carregar novo conteúdo.
Isso significa que a página da web, neste caso a página inicial, não carrega conteúdo adicional até que um visitante role até o final da tela.
Splitt explica por que isso é um problema: “O que o Googlebot não faz? Ele não rola.”
O que o Googlebot faz é acessar uma página e rastrear o que está imediatamente visível.
De acordo com o que Splitt declarou, o Googlebot não consegue rastrear conteúdo que é carregado apenas após a rolagem da página.
Como mencionado, @kirupa, você pode verificar suas próprias páginas usando ferramentas no GSC, que mostrarão uma instantânea de como o Google visualiza (e indexa) suas páginas.
De acordo com Splitt, do Google, em abril de 2020: “O Googlebot não rola.” (parafraseando)
Em relação à questão sobre “indexação de pesquisa do Google e Discourse”, todo proprietário de site pode facilmente usar o GSC para determinar como o Googlebot indexa uma página específica.
Minha recomendação, e espero que isso ajude de alguma forma, é usar o GSC (Google Search Console) para verificar suas próprias páginas caso tenha dúvidas sobre como o Googlebot indexa suas páginas.
Referências: