Hola @kirupa,
Solo para tu información, cuando Google indexa dos sitios en el mismo dominio, por ejemplo, en tu caso kirupa.com con contenido similar, normalmente lo que ocurre (no es realmente una “penalización” en sentido estricto, sino más bien una “selección canónica”) es que el algoritmo de Google selecciona una de las páginas como canónica y esa página tendrá un mejor posicionamiento en los resultados de búsqueda. (Incluso es posible que Google excluya del índice la página que determine que no es canónica).
Google ha sido muy claro al respecto: la idea de una “penalización por contenido duplicado” es, en gran medida, un mito. Se trata realmente de “canonización” y “selección”:
Si tu sitio contiene varias páginas con contenido mayoritariamente idéntico, existen varias formas de indicar a Google la URL preferida. (Esto se denomina “canonización”). Más información sobre canonización. (Ref 1)
Por ejemplo, si mantienes tu sitio antiguo junto con el nuevo, puedes usar la etiqueta link canonical para indicar a Google que tu nuevo sitio es el sitio canónico, y Google priorizará entonces tu nuevo sitio.
Una solución mejor es permitir que los motores de búsqueda rastreen estas URL, pero marcarlas como duplicadas mediante el elemento de enlace rel="canonical", la herramienta de manejo de parámetros de URL o redirecciones 301. En casos en los que el contenido duplicado provoca que rastremos demasiado de tu sitio web, también puedes ajustar la configuración de la velocidad de rastreo en Search Console. (Ref 1)
Ejemplo:
<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />
@kirupa, también preguntaste:
¿Considera Google cada tema como una “página” indexable? La razón por la que pregunto es que una gran parte de los temas en nuestro foro no están en la base de datos de Google.
Para una excelente (aunque un poco anticuada) discusión sobre Google y el desplazamiento infinito, recomiendo el Blog Oficial de Webmaster Central de Google (Ref 2):
https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html
@kirupa, una forma de verificarlo (de manera práctica, no teórica) es usar GSC y observar su “captura de pantalla” de cómo representan tu página. Esto se hace fácilmente con la función “comprobar compatibilidad con móviles” en GSC (por ejemplo); y si tomas un post muy largo en Discourse, puedes verificar cuánto de esa página indexa Google (lee e indexa). Hay muchas opiniones sobre el desplazamiento infinito y cómo Google indexa estas páginas. Puedes usar GSC para revisar tus páginas y comprobarlo por ti mismo.
Según Martin Splitt de Google (véase la referencia 3), el 14 de abril de 2020:
Splitt ofreció el ejemplo de un sitio web de noticias que depende del desplazamiento infinito (también conocido como “carga diferida” o “lazy loading”) para cargar nuevo contenido.
Esto significa que la página web, en este caso la página de inicio, no carga contenido adicional hasta que un visitante llega al final de la pantalla.
Splitt explica por qué esto es un problema: “¿Qué no hace Googlebot? No hace scroll.”
Lo que hace Googlebot es aterrizar en una página y rastrear lo que es inmediatamente visible.
Según lo declarado por Splitt, Googlebot no puede rastrear contenido que se carga solo después de hacer scroll en una página.
Como se mencionó, @kirupa, puedes revisar tus propias páginas utilizando las herramientas de GSC, las cuales te mostrarán una instantánea de cómo Google ve (e indexa) tus páginas.
Según Splitt de Google en abril de 2020: “Googlebot no hace scroll.” (parafraseando)
En cuanto a la pregunta sobre “la indexación en Google y Discourse”, cada propietario de un sitio puede usar fácilmente GSC para determinar cómo Googlebot indexa una página específica.
Mi recomendación, y espero que esto ayude de alguna pequeña manera, es utilizar GSC (Google Search Console) para revisar tus propias páginas si tienes dudas sobre cómo Googlebot las indexa.
Referencias:
-
How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central | Documentation | Google for Developers
-
https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html
-
Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems