Problemas que Google Search Console me está mostrando por estructura de discurso incorrecta (o quizás por una mala administración de mi sitio)

Bathinda · 17 Diciembre, 2024 09:22

Después del paso de la histeria inicial (que puede apoderarse de una persona que descubre que durante casi medio año, Google no ha prestado atención a su sitio web y ni siquiera lo sabía),
intentaré enumerar aquí solo aquellas causas que están relacionadas con el código de Discourse, es decir, que no pueden ser corregidas ni por Google, ni por mí (hasta donde puedo decir), sino por el equipo de Discourse.

Bloqueado por Robots.txt:

image396×173 7.54 KB
Error del servidor 5xx

Una notificación por correo electrónico de Google Search Console sobre páginas indexadas debido a un error del servidor. (Subtitulado por IA)378×352 14.9 KB
Contenido más ancho que la pantalla y Elementos clickeables demasiado juntos para hacer clic (en pantalla móvil)

Una notificación por correo electrónico alertando sobre nuevos problemas de usabilidad móvil detectados en un sitio web, con recomendaciones para solucionar los problemas y permitir la mejor experiencia y cobertura en la Búsqueda de Google. (Subtitulado por IA)398×538 27.1 KB
Problemas de datos estructurados del foro de discusión:

image385×244 12.9 KB
Problemas de indexación de video, pero sin más detalles:

En la imagen se muestra una notificación sobre problemas de indexación de video en un sitio web. (Subtitulado por IA)376×512 25.1 KB

Al hacer clic en “Informe de indexación de video”:

Y al hacer clic en el enlace “Mejoras > Videos”:

Por favor, ayuden.

Bathinda · 17 Diciembre, 2024 10:49

Anteriormente, cuando me encontré con el problema (todo esto se puede omitir)::

Después de varios meses de perder usuarios, ¡hoy descubrí que mi sitio ha sido bloqueado/prohibido por Google!

Más atrás, cómo encontré este problema, todo se puede omitir:

Leí casi todo el tema de meta antes de preguntar.

En agosto de 2024, noté que el tráfico a mi sitio web se había reducido hasta en un 95%. Pero lo ignoré pensando que tal vez no estaba publicando lo suficiente.

Pero hoy descubrí que, sin importar el término que buscara en Google, restringiendo la búsqueda solo a mi propio sitio: ***site:BathindaHelper.com jobs in bathinda***, arrojaba CERO resultados (el único resultado que muestra de mi sitio es en realidad solo una sugerencia para crear anuncios de Google para mostrar este resultado de mi sitio, lo que indica que mi sitio SÍ ha sido indexado):

Y finalmente, también revisé Google Analytics (quizás renombrado a Google Events) y muestra claramente que desde el 17 de junio de 2024, Google ya no me refiere tráfico a mi sitio.

Jagster · 17 Diciembre, 2024 11:58

Cuando creaste tu sitio, ¿ya sea usando inicio de sesión forzado o dejando de mostrar temas TL0+? Google solo puede usar un sitio si es visible para el mundo. O has bloqueado los user agents de Google.

¿Es este el mismo foro donde tuviste problemas de DNS?

Moin · 17 Diciembre, 2024 12:02

¿Preguntas por esto Site does not appear in google searches - #2 by Bathinda? Creo que la respuesta de abajo está respondiendo a la pregunta del OP.

Bathinda · 17 Diciembre, 2024 12:05

Usé incorrectamente la palabra ‘force’. (Quería decir que estaba obligando a la búsqueda de Google a producir resultados de búsqueda de mi propio sitio BathindaHelper.com)

No creé mi sitio utilizando ningún método anormal/forzado.
No manipulé deliberadamente nada relacionado con TL0+ o similar.
Durante la última media hora, he descubierto que (entre otros pequeños problemas) de alguna manera mi archivo robots.txt es el culpable, pero no he podido encontrar (todavía) cómo solucionar esto.
No recuerdo haber tenido problemas de DNS (¿te refieres a un pasado muy lejano?). Mi sitio funciona bien, excepto que cuando yo/el administrador actualizo mi navegador a la fuerza, a veces tarda casi 30 a 50 segundos en abrirse, pero después funciona bien.

Gracias por responder.

Editar:
He ‘deseleccionado’ la opción del archivo robots:

pero no puedo decir si la consola de búsqueda de Google informa que todo está bien o no ahora:

Jagster · 17 Diciembre, 2024 12:12

Sí, me lo perdí por completo. Y ahora tenemos una demostración de lo que puede pasar cuando

se responden temas antiguos
temas fuera de lugar
un usuario no lee los temas

Sí, mi error.

Jagster · 17 Diciembre, 2024 12:24

Consulta esta configuración:

allowed crawler user agents (agentes de usuario de rastreadores permitidos)
blocked crawler user agents (agentes de usuario de rastreadores bloqueados)

Pero, hasta donde sé, Discourse no tiene un robots.txt simple como la mayoría de los sitios, sino que se hace mediante alguna extraña cosa de Ruby, y no hay muchas configuraciones que un administrador pueda ajustar. Excepto esas dos configuraciones y la ralentización de los bots.

Ese solo fui yo y mis dedos rápidos

Moin · 17 Diciembre, 2024 12:34

¿Desactivaste eso ahora o antes de que la indexación se detuviera?

Especifica en robots.txt que este sitio puede ser indexado por los motores de búsqueda web.

Si no permites que los motores de búsqueda indexen tu sitio, no me sorprende que no lo hagan.

Bathinda · 17 Diciembre, 2024 13:45

Lo haría e informaría.

Desactivé esto después de abrir este tema (hace unos 30 minutos). Si bien este problema ha existido durante 3 meses. Pero no he podido verificar de forma independiente si esta ‘deselección’ ha podido solucionar el error de ‘Indexación de Google’ o no.

Dudo si no desactivo/bloqueo sitios por Robots.txt, entonces ¿TODOS LOS SITIOS ESTÁN PERMITIDOS? ¿O es lo contrario, que si no HABILITO los sitios por Robots.txt, entonces todos los sitios están BLOQUEADOS de la indexación?

Jagster · 17 Diciembre, 2024 13:49

Lo olvidé por completo. Deberías seleccionarlo. Si no lo usas, debes verificar y editar robots.txt manualmente para asegurarte de que guíe a los bots como deseas.

Pero puedes echar un vistazo si encuentras algo allí que detenga a Google.

Bathinda · 17 Diciembre, 2024 13:54

Ok.
Eso significa que todos los usuarios de Discourse (normalmente) necesitarían especificar/dar un archivo ‘Robots.txt’.
Y así, leeré el tema sobre esto (cómo y qué debería haber en este archivo) en detalle mañana.

Segundo, si no es demasiado extenso para explicar, ¿puedes decirme alguna manera fácil con la que pueda modificar algunas configuraciones en mi panel de administración de Discourse y al mismo tiempo verificar en vivo/en tiempo real si Google ahora puede acceder (y luego indexar) mi sitio libremente o todavía está recibiendo el error ‘Acceso denegado - 403’?!

Editar: Aunque yo mismo intentaré encontrar recursos similares en Google ahora/más tarde.

Jagster · 17 Diciembre, 2024 13:57

Bueno, no. Significa que normalmente los administradores mantienen robots.txt habilitado para evitar manipulaciones manuales Pero claro, la lista de bots bloqueados, etc., es lo que un administrador quiere modificar.

nat · 18 Diciembre, 2024 09:38

¿Puedes comprobar cuál es tu configuración para blocked_crawler_user_agents?

Bathinda · 18 Diciembre, 2024 11:06

Esta configuración es como la siguiente (no cambié nada):

Una captura de pantalla que muestra una página de configuración con opciones para bloquear y ralentizar agentes de usuario de rastreadores específicos. (Subtitulado por IA)808×252 20.9 KB
Aquí escribí estos dos dominios google y google.com ayer, como experimento, no sé si esto tiene prioridad sobre ‘Blocked Crawler User Agents’ o no. O si esto ha solucionado mi problema o no (porque Google dice que ha puesto en cola mi solicitud de rastreo/indexación, lo que podría tardar hasta 2-3 días):

La imagen es una captura de pantalla de una página de configuración con opciones para agentes de usuario de rastreadores permitidos y bloqueados, con funcionalidad de búsqueda o creación. (Subtitulado por IA)755×163 6.2 KB
Y aquí puedes encontrar mi 'Robots.txt’.

Por favor, dime cuál tiene prioridad si los 3 tienen configuraciones contradictorias.

Firepup650 · 18 Diciembre, 2024 11:42

Eso no debería tener ningún efecto, ya que Google utiliza " Googlebot " y variaciones del mismo para rastrear:

Bathinda · 18 Diciembre, 2024 11:49

¡De hecho, ese tuvo el efecto principal!

Gracias a todos, muchas gracias por ayudarme a resolver el principal gran problema, utilizando esta configuración:

Pero para muchos otros (pequeños) problemas que afectan la indexación de Google, explicados por mí en la primera publicación de este mismo tema meta, me gustaría mantener el tema abierto.

Además, estaría agradecido si alguien pudiera decirme qué sucede si he bloqueado el Rastreador-1 de un sitio en Agentes de usuario de rastreador bloqueados y al mismo tiempo lo permito en Agentes de usuario de rastreador permitidos.
¿Y qué sucede si lo he permitido en Permitidos... pero lo he bloqueado a través de Robots.txt? ¿Qué tiene prioridad?

Jagster · 18 Diciembre, 2024 12:20

Debe eliminar compatible. Bloquea prácticamente todo, incluido googlebot. Debido a esto:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Y bloquear Facebook tampoco es una buena idea, si comparte temas en Facebook.

Todo lo que use en la lista de bloqueo, bloquea a todos los bots que tengan esa palabra en su cadena de agente de usuario. Así que, tenga cuidado.

Bathinda · 18 Diciembre, 2024 12:24

Quizás por eso todavía recibo un error al intentar rastrear/indexar cualquier tema (excepto la página de inicio) a través de Google Search Console:

Pero, ¿por qué (incluso cuando compatible estaba bloqueado) solo la página de inicio está disponible para Google Search Console, como se muestra a continuación?

Simplemente eliminé ese ‘Compatible’ y volveré a informar.

Bathinda · 18 Diciembre, 2024 12:41

¡¡¡¡¡Por fin!!! Parece que he superado el error ‘prohibido’ en la página principal/inicio y en temas individuales, con el 90% de ayuda por vuestra parte y el 10% de experimentación por mi parte. Muchas gracias.

Después de eliminar ‘Compatible’ de la lista ‘Blocked Crawlers’ (Robots bloqueados), encontré una nota bajo otra configuración, que, estúpidamente ignoré, básicamente pedía a los usuarios que no introdujeran ningún valor en ‘Allowed Crawler User Agents’ (Agentes de usuario de rastreadores permitidos) a menos que estuvieran bastante seguros de lo que estaban haciendo. ¡Así que aquí estaba! Ignorar la advertencia escrita en mayúsculas me trajo tantos meses de que Google ignorara mi sitio y tantos problemas:

Para cualquiera que llegue a este tema por el error Access Forbidden-403 (Acceso Denegado-403) en Google Search Console:

Principalmente 2 cosas resolvieron mis problemas, una fue eliminar ‘Compatible’ de la lista ‘Blocked Crawlers’ (Robots bloqueados) y
Vaciar (como está por defecto) la configuración ‘Allowed User Crawler Agents’ (Agentes de usuario de rastreadores permitidos).

El tema permanecerá abierto para otros problemas de Búsqueda de Google (aunque no tan críticos como este).

Tema		Respuestas	Vistas
Why isn't Google Indexing Discourse? SEO concerns Support seo	31	5589	1 Junio 2024
Needing to edit robots.txt file - where is it? Support	42	7752	29 Abril 2023
Google complaining – Indexed, though blocked by robots.txt Support	24	2585	28 Septiembre 2023
Malformed robots.txt causing issues with indexing Support	9	1893	21 Abril 2023
Sitelinks in Google disappearing Community Building	26	1549	27 Enero 2023

Problemas que Google Search Console me está mostrando por estructura de discurso incorrecta (o quizás por una mala administración de mi sitio)

Anteriormente, cuando me encontré con el problema (todo esto se puede omitir)::

Más atrás, cómo encontré este problema, todo se puede omitir:

Para cualquiera que llegue a este tema por el error Access Forbidden-403 (Acceso Denegado-403) en Google Search Console:

Temas relacionados