Después del paso de la histeria inicial (que puede apoderarse de una persona que descubre que durante casi medio año, Google no ha prestado atención a su sitio web y ni siquiera lo sabía),
intentaré enumerar aquí solo aquellas causas que están relacionadas con el código de Discourse, es decir, que no pueden ser corregidas ni por Google, ni por mí (hasta donde puedo decir), sino por el equipo de Discourse.
En agosto de 2024, noté que el tráfico a mi sitio web se había reducido hasta en un 95%. Pero lo ignoré pensando que tal vez no estaba publicando lo suficiente.
Pero hoy descubrí que, sin importar el término que buscara en Google, restringiendo la búsqueda solo a mi propio sitio: ***site:BathindaHelper.com jobs in bathinda***, arrojaba CERO resultados (el único resultado que muestra de mi sitio es en realidad solo una sugerencia para crear anuncios de Google para mostrar este resultado de mi sitio, lo que indica que mi sitio SÍ ha sido indexado):
Y finalmente, también revisé Google Analytics (quizás renombrado a Google Events) y muestra claramente que desde el 17 de junio de 2024, Google ya no me refiere tráfico a mi sitio.
Cuando creaste tu sitio, ¿ya sea usando inicio de sesión forzado o dejando de mostrar temas TL0+? Google solo puede usar un sitio si es visible para el mundo. O has bloqueado los user agents de Google.
¿Es este el mismo foro donde tuviste problemas de DNS?
Usé incorrectamente la palabra ‘force’. (Quería decir que estaba obligando a la búsqueda de Google a producir resultados de búsqueda de mi propio sitio BathindaHelper.com)
No creé mi sitio utilizando ningún método anormal/forzado.
No manipulé deliberadamente nada relacionado con TL0+ o similar.
Durante la última media hora, he descubierto que (entre otros pequeños problemas) de alguna manera mi archivo robots.txt es el culpable, pero no he podido encontrar (todavía) cómo solucionar esto.
No recuerdo haber tenido problemas de DNS (¿te refieres a un pasado muy lejano?). Mi sitio funciona bien, excepto que cuando yo/el administrador actualizo mi navegador a la fuerza, a veces tarda casi 30 a 50 segundos en abrirse, pero después funciona bien.
Gracias por responder.
Editar:
He ‘deseleccionado’ la opción del archivo robots:
allowed crawler user agents (agentes de usuario de rastreadores permitidos)
blocked crawler user agents (agentes de usuario de rastreadores bloqueados)
Pero, hasta donde sé, Discourse no tiene un robots.txt simple como la mayoría de los sitios, sino que se hace mediante alguna extraña cosa de Ruby, y no hay muchas configuraciones que un administrador pueda ajustar. Excepto esas dos configuraciones y la ralentización de los bots.
Desactivé esto después de abrir este tema (hace unos 30 minutos). Si bien este problema ha existido durante 3 meses. Pero no he podido verificar de forma independiente si esta ‘deselección’ ha podido solucionar el error de ‘Indexación de Google’ o no.
Dudo si no desactivo/bloqueo sitios por Robots.txt, entonces ¿TODOS LOS SITIOS ESTÁN PERMITIDOS? ¿O es lo contrario, que si no HABILITO los sitios por Robots.txt, entonces todos los sitios están BLOQUEADOS de la indexación?
Lo olvidé por completo. Deberías seleccionarlo. Si no lo usas, debes verificar y editar robots.txt manualmente para asegurarte de que guíe a los bots como deseas.
Pero puedes echar un vistazo si encuentras algo allí que detenga a Google.
Ok.
Eso significa que todos los usuarios de Discourse (normalmente) necesitarían especificar/dar un archivo ‘Robots.txt’.
Y así, leeré el tema sobre esto (cómo y qué debería haber en este archivo) en detalle mañana.
Segundo, si no es demasiado extenso para explicar, ¿puedes decirme alguna manera fácil con la que pueda modificar algunas configuraciones en mi panel de administración de Discourse y al mismo tiempo verificar en vivo/en tiempo real si Google ahora puede acceder (y luego indexar) mi sitio libremente o todavía está recibiendo el error ‘Acceso denegado - 403’?!
Editar: Aunque yo mismo intentaré encontrar recursos similares en Google ahora/más tarde.
Bueno, no. Significa que normalmente los administradores mantienen robots.txt habilitado para evitar manipulaciones manuales Pero claro, la lista de bots bloqueados, etc., es lo que un administrador quiere modificar.
Aquí escribí estos dos dominios google y google.com ayer, como experimento, no sé si esto tiene prioridad sobre ‘Blocked Crawler User Agents’ o no. O si esto ha solucionado mi problema o no (porque Google dice que ha puesto en cola mi solicitud de rastreo/indexación, lo que podría tardar hasta 2-3 días):
Pero para muchos otros (pequeños) problemas que afectan la indexación de Google, explicados por mí en la primera publicación de este mismo tema meta, me gustaría mantener el tema abierto.
Además, estaría agradecido si alguien pudiera decirme qué sucede si he bloqueado el Rastreador-1 de un sitio en Agentes de usuario de rastreador bloqueados y al mismo tiempo lo permito en Agentes de usuario de rastreador permitidos.
¿Y qué sucede si lo he permitido en Permitidos... pero lo he bloqueado a través de Robots.txt? ¿Qué tiene prioridad?
Pero, ¿por qué (incluso cuando compatible estaba bloqueado) solo la página de inicio está disponible para Google Search Console, como se muestra a continuación?
¡¡¡¡¡Por fin!!! Parece que he superado el error ‘prohibido’ en la página principal/inicio y en temas individuales, con el 90% de ayuda por vuestra parte y el 10% de experimentación por mi parte. Muchas gracias.
Después de eliminar ‘Compatible’ de la lista ‘Blocked Crawlers’ (Robots bloqueados), encontré una nota bajo otra configuración, que, estúpidamente ignoré, básicamente pedía a los usuarios que no introdujeran ningún valor en ‘Allowed Crawler User Agents’ (Agentes de usuario de rastreadores permitidos) a menos que estuvieran bastante seguros de lo que estaban haciendo. ¡Así que aquí estaba! Ignorar la advertencia escrita en mayúsculas me trajo tantos meses de que Google ignorara mi sitio y tantos problemas: