Hay algunos rastreadores en nuestro sitio. ¿Existe algún riesgo de que tengan acceso al contenido?
¿Cuál es una «carga/riesgo aceptable del rastreador» antes de que tenga que emprender procedimientos de bloqueo con los que tengo poca o ninguna experiencia?
Cuando la carga es tan alta que tiene un impacto negativo y deberías comprar más CPU y/o RAM. Bueno, no sé qué tan fácil puede suceder eso en Discourse porque la solución es diferente, pero WordPress, basado en PHP, es bastante fácil de poner de rodillas. Pero Discourse sirve contenido estático y ligero para bots, si sabe quiénes son humanos y quiénes no. Y si un bot proporciona un agente de usuario fuertemente falso, ¿qué puede obtener… muchos textos en JSON?
Si un bot se abre camino a través del inicio de sesión, la barrera de nivel de confianza, etc., supongo que el equipo estará en modo de pánico y todas las manos deberán volver al trabajo de inmediato
Esperemos que eso no sea solo editar el robots.txt porque solo funciona con los que se comportan bien. En realidad, solo hay una solución efectiva pero un poco más difícil: el proxy inverso.
No estoy seguro de lo que estás preguntando. No bloqueamos nada por defecto, pero proporcionamos a los administradores las herramientas para ser selectivos.
Así que confías en que los bots a) lean robots.txt y b) sigan las reglas. Bueno, los que se portan mal no hacen ninguna de las dos cosas. Y volvemos al principio: si los bots son un problema de cualquier tipo, el proxy inverso es la mejor solución.
Ah, ya veo a qué te refieres. No, no asumimos que todos los bots se identifican como rastreadores o siguen las reglas; definitivamente es una ciencia inexacta. Simplemente estaba ofreciendo un primer punto de mitigación al OP.
Actualmente estamos trabajando en formas de restringir el tráfico de manera más específica, pero no es una tarea fácil.
He notado que los números de rastreadores son mucho más bajos en el sitio alojado en Discourse que en el sitio del servidor de Digital Ocean, con la configuración de administrador predeterminada para ambos.
El sitio alojado generalmente tiene menos de diez rastreadores al día, con un promedio de aproximadamente 4. A veces hay picos, como el último día de este enero más reciente, que tuvo 77 rastreadores ese día.
El sitio de Digital Ocean, con casi ninguna actividad, tiene un promedio de aproximadamente 30 rastreadores al día. No sé por qué, si esto importa el tipo de servidor o dominio, habría más rastreadores.
Estos generalmente buscan/indexan sitios públicos + contenido para que los motores de búsqueda puedan encontrarlos, lo que puede ser algo bueno para los sitios si deseas llegar a una audiencia más amplia, ya que las personas pueden encontrar tu sitio si están buscando algo de lo que se habla en un sitio de Discourse.
Puede haber otros propósitos para los rastreadores, no sé para qué son todos. A estos se les niega el acceso de forma predeterminada en la configuración, lo cual probablemente ya sepas:
Siendo relativamente analfabeto en informática, he estado siguiendo sus opiniones expertas sobre rastreo de manera similar a un espectador con discapacidad que observa el partido final del US Open… Gracias por introducirme en esta desconcertante parte de la seguridad del sitio.
Nuestro foro, alojado de manera tan eficiente por Discourse, es uno de alta confidencialidad. Los usuarios que se unen por invitación están muy nerviosos por la confidencialidad y estoy tratando de tranquilizarlos lo mejor que puedo. Los rastreadores pueden no ser muy dañinos (¿?!), pero me gustaría mantenerlos completamente fuera si es posible, no nos son de ninguna utilidad ya que no tenemos ningún interés en que nuestro contenido sea indexado o conocido de ninguna manera.
Ahora me doy cuenta de que optimizar la configuración es lo primero que hay que hacer. ¿Es posible que mi configuración sea examinada por uno del grupo de soporte de Communitech a ese respecto?
Ah, eso es bueno de ver, pensé que solo dependía de Redis para servir contenido recientemente renderizado más rápidamente. Como mencionas, cuando mi foro se ejecutaba en Drupal, los malos bots y, a veces, incluso los rastreadores de los motores de búsqueda lo ponían de rodillas ocasionalmente. Pero instalé un complemento que creaba una caché de archivo HTML estático de las páginas a las que se accedía de forma anónima y creaba automáticamente reglas de reescritura de Nginx para ellas. Nginx las serviría sin iniciar el código PHP de Drupal y era increíblemente rápido y podía manejar mucha más carga de tráfico anónimo.
Hola. Es bastante importante tener en cuenta que esto no tiene implicaciones de seguridad. Los rastreadores solo tienen acceso a sitios públicos. Si tienes un sitio solo con inicio de sesión, no tendrán acceso.
Otra aclaración es que Communiteq no está afiliado de ninguna manera con nosotros, así que si ellos son tus hosts, no eres alojado por Discourse.
Planeaba enviar una respuesta privada, pero esto podría ser útil para otros también, así que lo publico aquí.
Solo están accediendo a su página de inicio (inicio de sesión) y no pueden acceder al contenido.
Pueden serlo. Dependiendo del tipo de rastreador, podrían estar haciendo accesible información que no querías que fuera accesible. Técnicamente hablando, un rastreador solo puede acceder a información pública, pero un rastreador (y los motores de búsqueda asociados) son muy buenos para descubrir información y hacerla accesible.
Así que veamos su situación.
Su robots.txt muestra
User-agent: *
Disallow: /
así que está configurado para denegar a todos los rastreadores de motores de búsqueda.
Sin embargo, esto solo no es suficiente, ya que robots.txt se basa en la cortesía y no es respetado por los robots “malos”. Un robot malo simplemente puede optar por ignorar robots.txt. Es como un letrero de “¡prohibido el paso!” - un ladrón no lo respetará.
La seguridad principal de su foro se basa en el hecho de que tiene habilitado el inicio de sesión requerido. Eso es suficiente para mantener a cualquier rastreador fuera.
Aunque ya hemos determinado que los rastreadores no pueden entrar, podría ser bueno ir un paso más allá.
También tiene habilitados solo por invitación y permitir nuevas registraciones, y grupos permitidos para invitación está configurado en TL2. Esto significa que personas arbitrarias no pueden registrarse, pero cualquier usuario en TL2 o superior podrá invitar a otros usuarios a la comunidad. Como red de seguridad, ha habilitado debe aprobar usuarios, así que eso es bueno. La única forma de obtener acceso a su comunidad es ser invitado por alguien que ya es un miembro de confianza de la comunidad, y un administrador debe dejarlo entrar.
Por favor, póngase en contacto con support@communiteq.com o utilice la opción "Soporte" en nuestro panel de control si tiene preguntas de soporte relacionadas con un foro alojado por nosotros.