Viendo tráfico de usuarios anónimos y rastreadores, aunque el sitio es privado

Ayudo a administrar una instancia privada de Discourse y no pude evitar notar que hay tráfico registrado de usuarios anónimos y rastreadores web que aparece en mi panel de control. Ahora que lo observo de cerca, veo que esto también ocurría antes, pero en menor medida.

Tengo habilitada la opción “se requiere iniciar sesión” y nuestro SSO está configurado para permitir el inicio de sesión solo a usuarios que cumplan ciertos criterios. ¿Hay alguna otra configuración que deba marcar? ¡Gracias! : )

No deberías tener que hacer nada más… ese tráfico de rastreo probablemente proviene de bots que acceden a community.yoursite.com/login. Si revisas community.example.com/admin/reports/web_crawlers, podrás ver con qué frecuencia los rastreadores específicos acceden a tu sitio.

Hay algunas cosas que puedes hacer para reducir el tráfico de rastreo…

  • Intenta prohibir el acceso a /login para los rastreadores en el archivo robots.txt (community.example.com/admin/customize/robots)… probablemente verás una disminución en el tráfico de rastreo (aunque no por completo, ya que hay rastreadores que no respetan el archivo robots.txt).

  • Revisa los principales infractores en /admin/reports/web_crawlers y agrega sus user-agents a la configuración del sitio “blocked crawler user agents”.

Además de lo que escribió Kris, también se realizará una solicitud anónima a la página de inicio de sesión o a la página principal de tu sitio al inicio de cada solicitud de inicio de sesión mediante SSO.

Es probable que las páginas de Términos de Servicio y Privacidad de tu sitio también puedan ser accedidas por usuarios anónimos.

Si estás en un VPS, o tienes Nginx (Apache también funciona, pero Nginx es más fácil :wink: ) frente a Discourse, bloquear bots es bastante más sencillo. La IU de Discourse no es tan fácil de usar, porque por ahí hay muchos bots. Robots.txt es casi inútil porque muy pocos lo siguen, ni siquiera Google.

El problema no son los atacantes que intentan acceder a tu Discourse. Todo lo demás que buscan es:

  • Cientos de script kiddies que prueban si tienes WordPress e intentan explotar vulnerabilidades, mayormente antiguas, pero aún así.
  • Raspadores de SEO y otros rastreadores que intentan analizar tu contenido, principalmente porque quieren monetizarlo.
  • Y, por supuesto, los motores de búsqueda.

Estos no causan un daño real, como una intrusión, pero atenderlos cuesta dinero puro.

El problema es que tu servidor debe responder a todos ellos. Pronto, la mayoría de la carga provendrá de bots, no de usuarios reales. Es totalmente normal tener alrededor de 50 a 500 bots por cada usuario real.

Y tú pagarás por todo esto.

No tengo una audiencia global porque mis sitios, incluido Discourse, son puramente en finés. Así que tengo una herramienta poderosa también, pero solo se puede usar en un VPS: el bloqueo geográfico.

Lo siento mucho, amigos de Rusia, China, India, Pakistán, Irán, Irak y Vietnam, pero cuando bloqueé vuestros países, la carga de bots bajó aproximadamente un 90 %.

La lucha contra los bots es interminable. Y las herramientas de Discourse, cuando un foro no es privado, son muy limitadas. Pero, por supuesto, mejor que nada.

No me malinterpretes. No estoy diciendo que una aplicación debería hacer algo que es tarea del servidor. Solo quiero decir que no puedes depender únicamente de Discourse.