Problemas que Google Search Console me está mostrando por estructura de discurso incorrecta (o quizás por una mala administración de mi sitio)

Después del paso de la histeria inicial (que puede apoderarse de una persona que descubre que durante casi medio año, Google no ha prestado atención a su sitio web y ni siquiera lo sabía),
intentaré enumerar aquí solo aquellas causas que están relacionadas con el código de Discourse, es decir, que no pueden ser corregidas ni por Google, ni por mí (hasta donde puedo decir), sino por el equipo de Discourse.

Al hacer clic en “Informe de indexación de video”:

Y al hacer clic en el enlace “Mejoras > Videos”:

Por favor, ayuden.

Anteriormente, cuando me encontré con el problema (todo esto se puede omitir)::

Después de varios meses de perder usuarios, ¡hoy descubrí que mi sitio ha sido bloqueado/prohibido por Google!

Más atrás, cómo encontré este problema, todo se puede omitir:

Leí casi todo el tema de meta antes de preguntar.

En agosto de 2024, noté que el tráfico a mi sitio web se había reducido hasta en un 95%. Pero lo ignoré pensando que tal vez no estaba publicando lo suficiente.

Pero hoy descubrí que, sin importar el término que buscara en Google, restringiendo la búsqueda solo a mi propio sitio: ***site:BathindaHelper.com jobs in bathinda***, arrojaba CERO resultados (el único resultado que muestra de mi sitio es en realidad solo una sugerencia para crear anuncios de Google para mostrar este resultado de mi sitio, lo que indica que mi sitio SÍ ha sido indexado):


Y finalmente, también revisé Google Analytics (quizás renombrado a Google Events) y muestra claramente que desde el 17 de junio de 2024, Google ya no me refiere tráfico a mi sitio.

Cuando creaste tu sitio, ¿ya sea usando inicio de sesión forzado o dejando de mostrar temas TL0+? Google solo puede usar un sitio si es visible para el mundo. O has bloqueado los user agents de Google.

¿Es este el mismo foro donde tuviste problemas de DNS?

2 Me gusta

¿Preguntas por esto Site does not appear in google searches - #2 by Bathinda? Creo que la respuesta de abajo está respondiendo a la pregunta del OP.

1 me gusta

Usé incorrectamente la palabra ‘force’. (Quería decir que estaba obligando a la búsqueda de Google a producir resultados de búsqueda de mi propio sitio BathindaHelper.com)

  • No creé mi sitio utilizando ningún método anormal/forzado.
  • No manipulé deliberadamente nada relacionado con TL0+ o similar.
  • Durante la última media hora, he descubierto que (entre otros pequeños problemas) de alguna manera mi archivo robots.txt es el culpable, pero no he podido encontrar (todavía) cómo solucionar esto.
  • No recuerdo haber tenido problemas de DNS (¿te refieres a un pasado muy lejano?). Mi sitio funciona bien, excepto que cuando yo/el administrador actualizo mi navegador a la fuerza, a veces tarda casi 30 a 50 segundos en abrirse, pero después funciona bien.

Gracias por responder.

Editar:
He ‘deseleccionado’ la opción del archivo robots:

pero no puedo decir si la consola de búsqueda de Google informa que todo está bien o no ahora:

Sí, me lo perdí por completo. Y ahora tenemos una demostración de lo que puede pasar cuando

  • se responden temas antiguos
  • temas fuera de lugar
  • un usuario no lee los temas :joy:

Sí, mi error.

2 Me gusta

Consulta esta configuración:

  • allowed crawler user agents (agentes de usuario de rastreadores permitidos)
  • blocked crawler user agents (agentes de usuario de rastreadores bloqueados)

Pero, hasta donde sé, Discourse no tiene un robots.txt simple como la mayoría de los sitios, sino que se hace mediante alguna extraña cosa de Ruby, y no hay muchas configuraciones que un administrador pueda ajustar. Excepto esas dos configuraciones y la ralentización de los bots.

Ese solo fui yo y mis dedos rápidos :man_facepalming:

1 me gusta

¿Desactivaste eso ahora o antes de que la indexación se detuviera?

Especifica en robots.txt que este sitio puede ser indexado por los motores de búsqueda web.

Si no permites que los motores de búsqueda indexen tu sitio, no me sorprende que no lo hagan.

3 Me gusta

Lo haría e informaría.

Desactivé esto después de abrir este tema (hace unos 30 minutos). Si bien este problema ha existido durante 3 meses. Pero no he podido verificar de forma independiente si esta ‘deselección’ ha podido solucionar el error de ‘Indexación de Google’ o no.

Dudo si no desactivo/bloqueo sitios por Robots.txt, entonces ¿TODOS LOS SITIOS ESTÁN PERMITIDOS? ¿O es lo contrario, que si no HABILITO los sitios por Robots.txt, entonces todos los sitios están BLOQUEADOS de la indexación?

Lo olvidé por completo. Deberías seleccionarlo. Si no lo usas, debes verificar y editar robots.txt manualmente para asegurarte de que guíe a los bots como deseas.

Pero puedes echar un vistazo si encuentras algo allí que detenga a Google.

1 me gusta

Ok.
Eso significa que todos los usuarios de Discourse (normalmente) necesitarían especificar/dar un archivo ‘Robots.txt’.
Y así, leeré el tema sobre esto (cómo y qué debería haber en este archivo) en detalle mañana.

Segundo, si no es demasiado extenso para explicar, ¿puedes decirme alguna manera fácil con la que pueda modificar algunas configuraciones en mi panel de administración de Discourse y al mismo tiempo verificar en vivo/en tiempo real si Google ahora puede acceder (y luego indexar) mi sitio libremente o todavía está recibiendo el error ‘Acceso denegado - 403’?!

Editar: Aunque yo mismo intentaré encontrar recursos similares en Google ahora/más tarde.

Bueno, no. Significa que normalmente los administradores mantienen robots.txt habilitado para evitar manipulaciones manuales :wink: Pero claro, la lista de bots bloqueados, etc., es lo que un administrador quiere modificar.

2 Me gusta

¿Puedes comprobar cuál es tu configuración para blocked_crawler_user_agents?

1 me gusta
  1. Esta configuración es como la siguiente (no cambié nada):

  2. Aquí escribí estos dos dominios google y google.com ayer, como experimento, no sé si esto tiene prioridad sobre ‘Blocked Crawler User Agents’ o no. O si esto ha solucionado mi problema o no (porque Google dice que ha puesto en cola mi solicitud de rastreo/indexación, lo que podría tardar hasta 2-3 días):

  3. Y aquí puedes encontrar mi 'Robots.txt’.

Por favor, dime cuál tiene prioridad si los 3 tienen configuraciones contradictorias.

Eso no debería tener ningún efecto, ya que Google utiliza " Googlebot " y variaciones del mismo para rastrear:

3 Me gusta

¡De hecho, ese tuvo el efecto principal!

Gracias a todos, muchas gracias por ayudarme a resolver el principal gran problema, utilizando esta configuración:

Pero para muchos otros (pequeños) problemas que afectan la indexación de Google, explicados por mí en la primera publicación de este mismo tema meta, me gustaría mantener el tema abierto.

Además, estaría agradecido si alguien pudiera decirme qué sucede si he bloqueado el Rastreador-1 de un sitio en Agentes de usuario de rastreador bloqueados y al mismo tiempo lo permito en Agentes de usuario de rastreador permitidos.
¿Y qué sucede si lo he permitido en Permitidos... pero lo he bloqueado a través de Robots.txt? ¿Qué tiene prioridad?

Debe eliminar compatible. Bloquea prácticamente todo, incluido googlebot. Debido a esto:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Y bloquear Facebook tampoco es una buena idea, si comparte temas en Facebook.

Todo lo que use en la lista de bloqueo, bloquea a todos los bots que tengan esa palabra en su cadena de agente de usuario. Así que, tenga cuidado.

3 Me gusta

Quizás por eso todavía recibo un error al intentar rastrear/indexar cualquier tema (excepto la página de inicio) a través de Google Search Console:

Pero, ¿por qué (incluso cuando compatible estaba bloqueado) solo la página de inicio está disponible para Google Search Console, como se muestra a continuación?

Simplemente eliminé ese ‘Compatible’ y volveré a informar.

¡¡¡¡¡Por fin!!! Parece que he superado el error ‘prohibido’ en la página principal/inicio y en temas individuales, con el 90% de ayuda por vuestra parte y el 10% de experimentación por mi parte. Muchas gracias.

Después de eliminar ‘Compatible’ de la lista ‘Blocked Crawlers’ (Robots bloqueados), encontré una nota bajo otra configuración, que, estúpidamente ignoré, básicamente pedía a los usuarios que no introdujeran ningún valor en ‘Allowed Crawler User Agents’ (Agentes de usuario de rastreadores permitidos) a menos que estuvieran bastante seguros de lo que estaban haciendo. ¡Así que aquí estaba! Ignorar la advertencia escrita en mayúsculas me trajo tantos meses de que Google ignorara mi sitio y tantos problemas:


Para cualquiera que llegue a este tema por el error Access Forbidden-403 (Acceso Denegado-403) en Google Search Console:

  • Principalmente 2 cosas resolvieron mis problemas, una fue eliminar ‘Compatible’ de la lista ‘Blocked Crawlers’ (Robots bloqueados) y
  • Vaciar (como está por defecto) la configuración ‘Allowed User Crawler Agents’ (Agentes de usuario de rastreadores permitidos).

El tema permanecerá abierto para otros problemas de Búsqueda de Google (aunque no tan críticos como este).

1 me gusta