¿Por qué Google no indexa Discourse? Preocupaciones de SEO

No estoy seguro de por qué Google no está indexando el contenido de nuestra comunidad de Discourse.

Mira esta página aquí: Welcome to the Appsmith Community | Appsmith Community Portal
El título es bastante único. Me imagino que, cuando copio y pego el título en Google, el primer enlace debería ser la URL de arriba.

En cambio, lo que obtengo es esto: No solo no es el primer enlace, sino que ni siquiera aparece.

¿Qué estoy haciendo mal?

2 Me gusta

Podría haber muchísimas razones para esto.

¿El googlebot realmente rastrea tu sitio? revisa mysite.com/admin/reports/web_crawlers

¿El googlebot está bloqueado o tiene limitación de velocidad? revisa mysite.com/admin/site_settings/category/security?filter=crawler%20user%20agents

¿Has añadido tu sitio a Google Search Console?

Las personas que alojan su propio sitio incluso pueden instalar el siguiente plugin para ayudar

2 Me gusta

El complemento Sitemap también está disponible en nuestros planes Business y Enterprise.

Probablemente nada. Por alguna razón, Google parece dar más prioridad a “Cómo hago X” que al tema real con ese título exacto. ¿Por qué? No estoy seguro. Podría ser simplemente una IA que toma esa decisión basándose en patrones desconocidos.

6 Me gusta

O Google Patterns que ninguém conhece :wink:

2 Me gusta

Entonces, ese es un gran problema para nosotros. Lo investigaremos, pero eso anula el propósito, ya que no podemos esperar que la gente “recorra” todos los temas de la comunidad. En la práctica, la mayoría de las personas buscarán en Google su problema (incluso si son miembros de la comunidad) para llegar a la respuesta.

2 Me gusta

Es realmente difícil saber qué está pasando con Google en tu caso. Me tomé la libertad de echar un vistazo más de cerca a las estadísticas de tu rastreador y, a primera vista, parece que el rastreador de Google no visita tu comunidad con mucha frecuencia. ¿Ya intentaste obtener información de la Google Search Console? Quizás haya alguna información allí que pueda ayudar a llegar al fondo de esto.

Estoy viendo el mismo comportamiento para una pequeña porción de temas creados recientemente aquí en Meta. Discutiré esto con nuestro equipo para averiguar si hay algo que podamos hacer o si es simplemente Google siendo Google. Te mantendré informado.

Además, ¿viste nuestras dos publicaciones de blog sobre SEO?

2 Me gusta

Este comportamiento de Google comenzó hace meses y, lamentablemente, está empeorando.

El sitemap en mi caso no ayudó…

1 me gusta

Sí, esta es la primera pregunta que haría.

4 Me gusta

Bueno… nuestro sitio es appsmith.com, así que todos los subdominios y subcarpetas de appsmith.com deberían ser indexados idealmente cuando enviamos appsmith.com a GSC, ¿verdad?

De todos modos, he añadido community.appsmith.com (nuestro foro de Discourse) a GSC hoy, pero no estoy seguro de si eso cambiará algo.

Añadiría el subdominio como una propiedad independiente en tu GSC y enviarías un sitemap dedicado para el subdominio.

1 me gusta

@constantine

Tu foro está siendo indexado desde mayo de 2021

:slight_smile:

Esto parece ser un problema entonces. Porque definitivamente no podemos continuar si Google no indexa las publicaciones individuales, ya que de alguna manera frustra el propósito de tener la comunidad (ya que la mayoría de la gente descubrirá contenido de Google, incluidos nuestros usuarios actuales, en lugar de pasar por las categorías en Discourse).

Y esto no parece ser un problema solo en nuestro Discourse, sino incluso en este foro (meta.discourse.org).

Para demostrarlo, busqué en Google el título de esta publicación y este es el resultado que obtuve:

Básicamente, para las personas que terminan usando la comunidad de Discourse como una base de conocimiento (lo cual, por supuesto, muchas empresas hacen), esto se convierte en un gran problema.

Hemos seguido casi todas las pautas dadas en los 2 blogs sobre SEO que se compartieron anteriormente, nuestro contenido es rico, detallado y muy técnico. Sin embargo, cuando la gente lo busca en Google, no aparece.

Entonces, preguntas sinceras, amigos: dado nuestro caso de uso (que es crear una base de conocimiento a través de consultas de soporte, que también puede ayudar en SEO), y viendo el problema en cuestión, ¿recomendarían que comencemos a planificar la búsqueda de una alternativa?

1 me gusta

Aquí tienes un extracto de Google

La indexación de tu contenido por parte de Google está determinada por algoritmos del sistema que tienen en cuenta la demanda del usuario y las comprobaciones de calidad.

Recuerda también que solo los usuarios de TL3 y superiores tienen los enlaces nofollow desactivados.

Aquí tienes algo para leer

En otras palabras, mis publicaciones tienen más “peso” que tus publicaciones.

mis disculpas, tienes razón :+1:

1 me gusta

@constantine Parece que Google está prefiriendo páginas en el subdominio https://docs.appsmith.com sobre las páginas en https://community.appsmith.com

La mayoría de los resultados de búsqueda son de docs.appsmith.com
Google Search

Una suposición: la preferencia de Google por un subdominio sobre el otro podría estar influenciada por los “Core Web Vitals” Largest Contentful Paint (LCP)
El informe simulado en https://pagespeed.web.dev/ está “fallando” por Discourse. Es mejor verificar el informe de Google Search Console “Experinece” → “Core Web Vitals” para su dominio.

Solo una actualización, amigos: autoalojamos Discourse y enviamos el mapa del sitio a la consola de búsqueda, y ahora Google está indexando nuestro contenido. ¿Quizás haya algún problema con la versión alojada en la nube?

No estoy seguro de si esto está relacionado con sitemaps o alojamiento en la nube. Meta está alojado en AWS, que es un lugar completamente diferente a donde alojamos a muchos de nuestros otros clientes, y hemos comenzado a ver resultados muy desiguales para Meta últimamente y bastantes sitios en varias opciones de alojamiento.

He estado intentando ajustar algunas cosas para ver si algo ayuda.

  • Ya no seguimos enlaces a .rss, lo que evita que Google escanee las variantes /1 /2, etc. de un tema que comparten el mismo canónico.

  • Le indicamos explícitamente a Google que no siga los enlaces dentro del feed .rss en caso de que obtenga un feed rss.

  • Desactivé temporalmente algunos ajustes canónicos que hicimos, lo cual mostró resultados prometedores: Search engines now blocked from indexing non-canonical pages

El síntoma que estoy observando aquí en Meta es que

  1. Google está rastreando TODO el contenido, puedo verlo en los registros web.
  2. A pesar de rastrear las páginas, aproximadamente el 50% de los temas nuevos recientes de Meta no aparecen en el índice.

Esto es extremadamente preocupante, Google nos está dando muy poca visibilidad de “por qué” aquí.

Mi próximo paso es obtener más datos y un informe continuo. Probablemente usaremos serpapi para averiguar qué páginas faltan en Google e intentar encontrar un patrón.

5 Me gusta

¿Porque Meta, es decir, los OP aquí, no usan “por qué” como quiere Google? Hice algunas experiencias e incluso si el contexto se mantiene igual, usar diferentes oraciones cambia los resultados de búsqueda. Como se esperaba.

Y… el historial de búsqueda personal es algo grande y no tan bueno. Mis resultados a menudo apuntan a otro lugar que no sea Meta, porque hago búsquedas aquí, no a través de Google.

Sí. Aún así, Discourse puede tener algunos problemas con Google, y eso puede o no provenir del “estado del foro” donde Google no reacciona a los foros de la misma manera que a un sitio web normal. O hay algunos problemas técnicos, incluso esa es la razón muy raramente.

Es lo mismo que hice, después de un período inicial de mejora, vuelve a ser ignorado.
Después de dos meses, incluso los nuevos hilos en el sitemap no están siendo indexados, es una situación que lleva meses y hemos perdido muchas visitas.

Queremos probar esto durante un mes y si no mejora, cambiaremos de software :sob:

Consulta el informe de Google Search Console “Index” → “Coverage” para las páginas “missing”. Esto podría no mostrarte “por qué”, sino “qué está pasando”.

  1. Abre “Index” → “Coverage” para tu dominio.

  2. Selecciona “All submitted pages”

  3. Observa especialmente “Excluded”

Descripción de las diferentes etapas: Page indexing report - Search Console Help

Mi suposición sobre Google: “Crawled - currently not indexed” tiene algún límite superior establecido por Google; mientras haya demasiadas páginas en este estado, las nuevas páginas solo entrarán muy lentamente en el índice de Google.


Sobre el rendimiento del rastreador de Google, consulta el informe de Google Search Console “Settings” → “Crawl stats”

Aquí, especialmente la línea de tiempo y el desarrollo del “average response time” (tiempo de respuesta promedio) es interesante: respuesta más rápida = más solicitudes de rastreo.

Y también “By purpose” (Por propósito) es interesante: