Indexación en Google Search y Discusión

¡Hola a todos!

He leído varias publicaciones sobre cómo el rastreador de Google no tiene dificultades para indexar un foro de Discourse. Mi pregunta es un poco diferente. ¿Cada tema se considera una “página” indexable por Google? La razón por la que pregunto es que una gran parte de los temas en nuestro foro no están en la base de datos de Google. Esto se confirma al observar los datos de Google Search Console:

Solo existen alrededor de 17 mil entradas, y los foros tienen varios cientos de miles de temas (¿quizás millones?). Los errores de robots.txt son para páginas que legítimamente no deberían ser indexadas. Esto parece indicar que el rastreador no está visitando automáticamente todos los temas antiguos como debería.

¿Existe alguna configuración que deba activar para asegurar que más temas antiguos se indexen de manera oportuna? Para los elementos visibles sin necesidad de desplazarse (above the fold), la indexación y los resultados de Google son bastante buenos. Esto solo está afectando a los temas que quedan fuera de la vista inicial (below the fold).

Gracias,
Kirupa

2 Me gusta

Para un experimento, cargué Meta usando la vista de rastreador con la cadena de agente de usuario de GoogleBot. Luego llegué hasta la página 666 de nuestra lista más reciente, que son temas actualizados a mediados de 2017, hace casi 3 años.

Uno de los temas en la lista es Integración profunda de Discourse en una aplicación Ionic. Realicé una búsqueda en Google sin iniciar sesión y la búsqueda de “integration discourse ionic” lo coloca como el primer resultado.

Meta es una instancia “pequeña” con menos de 30 mil temas, pero todos parecen estar indexados correctamente. Dado que es un dominio antiguo y somos el resultado número 1 para todo lo relacionado con Discourse, tenemos suficiente “karma” con GoogleBot, por lo que este recorre nuestro dominio el tiempo suficiente para rastrear todo lo necesario.

¿Tu foro migró de un software antiguo a Discourse?

5 Me gusta

Si necesitas acelerar la indexación, podrías probar el plugin del mapa del sitio.

El rastreo estándar detectará todo, pero el mapa del sitio podría hacer que los contenidos se indexen más rápido.

Por favor, comparte los resultados si lo haces.

Además, ¿podrías publicar 5 ejemplos de contenido único y excelente que tengas en tu foro y que esté completamente ausente en Google?

6 Me gusta

Quizás Google también tenga en cuenta la participación en el tema (si hay un contador) o que el tema contenga enlaces a los que haya transiciones activas. Es posible que Google no visite ciertas páginas que considere “no interesantes” para los usuarios. Existe un truco, que por lo general se verifica de la siguiente manera. Esto es SEO. Coloca un enlace desde algún otro recurso y haz clic en él. No necesitas mucho, solo unos pocos (transiciones). Esto suele ser suficiente para despertar el interés de Google. Donde va la gente, ahí está él.

En sitios grandes de Google, no basta con saber que la página existe. Necesita más señales: actividad, clics, visitas, etc.

1 me gusta

@Falco - sí, los foros sí pasaron por una migración desde vBulletin, pero eso fue hacia finales de 2014. He eliminado cualquier enlace público a los foros antiguos, por lo que no existe el riesgo de que el contenido duplicado afecte negativamente la indexación en los motores de búsqueda.

@sam - sí, aquí tienes algunos ejemplos:

Todas estas publicaciones fueron compartidas por mí en Twitter o en una página pública de Facebook en algún momento de los últimos tres años, por lo que no son algo enterrado y oculto para siempre.

En cuanto al plugin del mapa del sitio, déjame probarlo. Publicaré cualquier dato que pueda encontrar. Gracias a todos por tomarse el tiempo para ayudar :slight_smile:

Saludos,
Kirupa

1 me gusta

Ese es mi tercer resultado para “ejemplo de js usando generadores para animar”.

Esto puede haber sido un mal ejemplo para publicar hoy, ya que lo envié manualmente para su indexación hace unas horas como prueba. Esto es lo que uno de mis administradores del foro vio antes para este término de búsqueda hace 7 horas:

Tienes razón, es uno de los primeros resultados ahora mismo. Me pregunto si la indexación manual tuvo algo que ver con ello.

EDITO: Acabo de configurar el complemento Mapa del sitio y ¡enviaré el mapa del sitio a Google para su indexación!

1 me gusta

Hola @kirupa,

Solo para tu información, cuando Google indexa dos sitios en el mismo dominio, por ejemplo, en tu caso kirupa.com con contenido similar, normalmente lo que ocurre (no es realmente una “penalización” en sentido estricto, sino más bien una “selección canónica”) es que el algoritmo de Google selecciona una de las páginas como canónica y esa página tendrá un mejor posicionamiento en los resultados de búsqueda. (Incluso es posible que Google excluya del índice la página que determine que no es canónica).

Google ha sido muy claro al respecto: la idea de una “penalización por contenido duplicado” es, en gran medida, un mito. Se trata realmente de “canonización” y “selección”:

Si tu sitio contiene varias páginas con contenido mayoritariamente idéntico, existen varias formas de indicar a Google la URL preferida. (Esto se denomina “canonización”). Más información sobre canonización. (Ref 1)

Por ejemplo, si mantienes tu sitio antiguo junto con el nuevo, puedes usar la etiqueta link canonical para indicar a Google que tu nuevo sitio es el sitio canónico, y Google priorizará entonces tu nuevo sitio.

Una solución mejor es permitir que los motores de búsqueda rastreen estas URL, pero marcarlas como duplicadas mediante el elemento de enlace rel="canonical", la herramienta de manejo de parámetros de URL o redirecciones 301. En casos en los que el contenido duplicado provoca que rastremos demasiado de tu sitio web, también puedes ajustar la configuración de la velocidad de rastreo en Search Console. (Ref 1)

Ejemplo:

<link rel="canonical" href="https://forum.kirupa.com/t/js-tip-of-the-day-using-generators-to-animate/643058" />

@kirupa, también preguntaste:

¿Considera Google cada tema como una “página” indexable? La razón por la que pregunto es que una gran parte de los temas en nuestro foro no están en la base de datos de Google.

Para una excelente (aunque un poco anticuada) discusión sobre Google y el desplazamiento infinito, recomiendo el Blog Oficial de Webmaster Central de Google (Ref 2):

https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

@kirupa, una forma de verificarlo (de manera práctica, no teórica) es usar GSC y observar su “captura de pantalla” de cómo representan tu página. Esto se hace fácilmente con la función “comprobar compatibilidad con móviles” en GSC (por ejemplo); y si tomas un post muy largo en Discourse, puedes verificar cuánto de esa página indexa Google (lee e indexa). Hay muchas opiniones sobre el desplazamiento infinito y cómo Google indexa estas páginas. Puedes usar GSC para revisar tus páginas y comprobarlo por ti mismo.

Según Martin Splitt de Google (véase la referencia 3), el 14 de abril de 2020:

Splitt ofreció el ejemplo de un sitio web de noticias que depende del desplazamiento infinito (también conocido como “carga diferida” o “lazy loading”) para cargar nuevo contenido.

Esto significa que la página web, en este caso la página de inicio, no carga contenido adicional hasta que un visitante llega al final de la pantalla.

Splitt explica por qué esto es un problema: “¿Qué no hace Googlebot? No hace scroll.”

Lo que hace Googlebot es aterrizar en una página y rastrear lo que es inmediatamente visible.

Según lo declarado por Splitt, Googlebot no puede rastrear contenido que se carga solo después de hacer scroll en una página.

Como se mencionó, @kirupa, puedes revisar tus propias páginas utilizando las herramientas de GSC, las cuales te mostrarán una instantánea de cómo Google ve (e indexa) tus páginas.

Según Splitt de Google en abril de 2020: “Googlebot no hace scroll.” (parafraseando)

En cuanto a la pregunta sobre “la indexación en Google y Discourse”, cada propietario de un sitio puede usar fácilmente GSC para determinar cómo Googlebot indexa una página específica.

Mi recomendación, y espero que esto ayude de alguna pequeña manera, es utilizar GSC (Google Search Console) para revisar tus propias páginas si tienes dudas sobre cómo Googlebot las indexa.

Referencias:

  1. How to Specify a Canonical with rel="canonical" and Other Methods | Google Search Central  |  Documentation  |  Google for Developers

  2. https://webmasters.googleblog.com/2014/02/infinite-scroll-search-friendly.html

  3. Google’s Martin Splitt Explains Why Infinite Scroll Causes SEO Problems

5 Me gusta

¡Gracias por la excelente respuesta, @neounix! Revisaré y seguiré tus sugerencias en breve :slight_smile:

Desocultar los foros antiguos (kirupaForum) e incluir la etiqueta meta canónica en el nuevo foro activo parece una buena idea. Lo probaré esta semana.

Mientras tanto, he enviado un mapa del sitio con alrededor de 300 mil entradas a Google Search Console.

2 Me gusta

Estimado @kirupa,

De nada.

Solo para tu información:

Los foros de Discourse ya agregan la etiqueta canónica a los temas.

Aquí hay un enlace a tu foro, y el código fuente que lo muestra para uno de tus ejemplos (arriba):

Screen Shot 2020-06-09 at 1.48.45 PM

Puedes ver que tu página de Discourse ya tiene una etiqueta canónica.

Un “truco” (no soportado oficialmente, pero posible) es agregar esa misma etiqueta en tus “foros antiguos” (apuntando a los foros nuevos) o, al menos, asegurarte de que tus foros antiguos no tengan una etiqueta canónica.

Sin embargo, para ser honesto, obtener el ID correcto del tema en los foros de Discourse dentro de la base de datos de tus foros antiguos requiere cierto trabajo (lo hicimos por otras razones, así que sé por experiencia propia que es posible, ya que usamos esta información en ambos foros actualmente).

Existe una tabla de base de datos llamada “post custom fields” en Discourse que contiene la relación entre tus foros antiguos (IDs de tema y de publicación); y podrías (si quisieras) volcar esos datos de Discourse y agregarlos a tus foros antiguos.

Luego, podrías (si quisieras, no estoy recomendando una u otra opción) crear fácilmente una etiqueta canónica en tus foros antiguos que apunte a tus nuevos foros de Discourse, si así lo deseas (según tu estrategia SEO y cómo quieras abordar esto).

Algunas personas prefieren redirigir con un código 301 las páginas de los foros antiguos. ¡Todo depende de ti y de cómo quieras gestionar las cosas! Ten en cuenta que, si quieres hacer una redirección 301, también necesitarás las relaciones entre los IDs de tema (y de publicación) de Discourse y los IDs de tema y de publicación de tus foros antiguos.

Espero que esta breve respuesta te sea útil, @kirupa.

¡Mis mejores deseos y que lo disfrutes!

2 Me gusta