Visitantes Oscuros

:information_source: Resumen Integra el servicio Known Agents con Discourse para llevar un registro de los rastreadores y scrapers no deseados que visitan tu foro.
:hammer_and_wrench: Enlace al Repositorio \u003chttps://github.com/magicball-network/discourse-darkvisitors\u003e
:open_book: Guía de Instalación Cómo instalar plugins en Discourse

:information_source: A partir del 3 de febrero de 2026 el servicio Dark Visitors ha cambiado su nombre a Known Agents. El plugin de Discourse no ha sido renombrado.

Características

Known Agents es un servicio que rastrea los agentes (crawlers, scrapers y otros tipos de bots) que visitan tus sitios web. Su atención principal se centra en el análisis de agentes de IA.

Ofrece dos servicios:

  • Generación y monitoreo de robots.txt
  • Analíticas de agentes; tanto del lado del servidor como del lado del cliente

El servicio de robots.txt es gratuito. Los servicios de analíticas ofrecen un nivel gratuito. Sugiero que visites su sitio web para más información.

Este plugin de Discourse se conecta a todos estos servicios, todos ellos opcionales y configurables hasta cierto punto.

Generación de robots.txt

Discourse ya ofrece una opción para configurar el robots.txt. Este plugin lo extiende. Cuando se habilita, el plugin recupera una lista de agentes en diferentes categorías (actualmente solo se admiten categorías de IA) y aquellos que faltan en los agentes ya configurados, los añadirá. La lista se actualizará diariamente. De esta manera, cuando se reconoce un nuevo scraper de IA, se añadirá a tu robots.txt.

Esta característica solo funciona si Discourse gestiona el robots.txt y no lo has anulado manualmente. El plugin no cambia la configuración de Agentes de rastreo bloqueados, sino que aumenta los nuevos agentes faltantes en el robots.txt. Por lo que todavía tienes el control total de la gestión de esta lista.

Cuando visites el robots.txt de tu sitio, verás un comentario inicial de la última actualización y el número de agentes devueltos por Known Agents. Los agentes que aún no están configurados se añaden al final de la lista. Deberían estar entre Googlebot y la directiva sitemap (si está configurada).

Analíticas de Agentes

Las analíticas del lado del servidor y del lado del cliente se pueden habilitar individualmente. Se pueden habilitar para todos los visitantes o solo para visitantes no autenticados.

Las analíticas del lado del servidor informan de visitas rastreadas a Known Agents. Enviará la ruta de la solicitud, la dirección remota del visitante, la cabecera User-Agent y algunas cabeceras de navegador más.

Hay algunas configuraciones adicionales sobre qué solicitudes se informan, consulta la configuración a continuación. Por defecto, solo se rastrean las solicitudes que Discourse marca para rastrear como vistas. Las siguientes solicitudes a Discourse nunca se informarán:

  • Solicitudes a la sección de Administración
  • Solicitudes de fondo y de API

Las analíticas del lado del cliente se gestionan añadiendo Javascript a tu página que llama a casa a Known Agents bajo ciertas condiciones:

  • El navegador parece estar automatizado o ser un navegador de IA
  • El usuario proviene de un servicio de chat de IA

Todas las solicitudes rastreadas cuentan para los eventos que afectan a tu plan de pago.

Configuración

Necesitas registrarte en Known Agents para poder usar este plugin. El nivel gratuito te da 100.000 eventos por mes. Cuando se alcanza ese límite, no verás más eventos nuevos en sus analíticas, pero aún puedes enviar nueva información y seguir utilizando el servicio de robots.txt.

Después de registrarte, debes crear un proyecto (es decir, un sitio para rastrear). Esto te proporcionará un token de acceso que es necesario para la funcionalidad de robots.txt y analíticas del lado del servidor.

Cuando habilites la funcionalidad de robots.txt, tardará un poco antes de que se actualice. Visita https://tudominio/robots.txt para ver si funciona. Debería tener un comentario en la parte superior

# Aumentado por Dark Visitors el 2025-05-07T12:46:00+00:00 con 28 agentes

Cuando habilites las analíticas del lado del servidor, puedes probar si funciona solicitando una visita de prueba desde la configuración del proyecto de Known Agents. Puede tardar unos segundos. Deberías ver el resultado en la página En tiempo real de Known Agents.

Configuración

Nombre Descripción
darkvisitors enabled Bandera global para habilitar todo el plugin
darkvisitors access token El token de acceso secreto necesario para el robots.txt y las analíticas del lado del servidor para comunicarse con Known Agents. Lo encontrarás en el proyecto de Known Agents bajo configuración.
darkvisitors robots txt enabled Cuando está habilitado, el robots.txt de Discourse se aumentará con agentes adicionales
darkvisitors robots txt agents El tipo de agentes a añadir al robots.txt.
darkvisitors robots txt path La ruta a la que se denegará el acceso a los agentes. Probablemente sea mejor dejarlo en / para que se rechace el acceso a todo el sitio.
darkvisitors server analytics Habilita las analíticas del lado del servidor. Recomiendo habilitarlo solo para usuarios anónimos.
darkvisitors server analytics include Solicitudes adicionales a rastrear. También puedes rastrear solicitudes a archivos subidos, o incluso solicitudes de 404 No Encontrado.
darkvisitors server analytics ignore Subcadenas en los user agents a ignorar (sensible a mayúsculas y minúsculas). Si utilizas monitoreo de tiempo de actividad, sugiero encarecidamente incluir su user agent de identificación en esta lista.
darkvisitors client analytics Habilita las analíticas del lado del cliente. Esto también te dará información de los usuarios normales que visitan tu foro mientras provienen de un servicio de chat de IA.
darkvisitors client analytics project key Para las analíticas del lado del cliente debes configurar la clave de proyecto (pública). La puedes encontrar en la configuración de tu proyecto de Known Agents en la sección Etiqueta de JavaScript, es el código después de project_key=
5 Me gusta

¡Gracias por esto, elmuerte! Lo he configurado y está funcionando muy bien.

Veo que en la configuración del plugin, los tipos de agente que se pueden seleccionar para exclusión a través de robots.txt son:

  • AI Data Scraper [seleccionado por defecto]
  • Undocumented AI Agent [seleccionado por defecto]
  • AI Agent
  • AI Assistant
  • AI Search Crawler

Pero la lista completa de tipos de agente de Dark Visitors es:
(negrita = adicional)

Crawlers y Scrapers…

  • AI Assistant
  • AI Data Scraper
  • AI Search Crawler
  • Archiver
  • Developer Helper
  • Fetcher
  • Intelligence Gatherer
  • Scraper
  • Search Engine Crawler
  • Security Scanner
  • SEO Crawler
  • Uncategorized Agent
  • Undocumented AI Agent

AI Agents…

  • AI Agent
  • Headless Agent

No todos estos tipos de agente son cosas que uno querría bloquear, pero me gustaría incluir algunos como Scraper, AI Data Scraper, SEO Crawler…

¿Son estos tipos de agente adicionales simplemente más nuevos que tu plugin? ¿Podrían agregarse a las opciones de lista actuales en settings.yml?

Excepto que robots.txt es solo una solicitud. Un bot la sigue o no. El firewall es la única forma de detenerlos.

Sí, lo entiendo, pero dado que Dark Visitors solo funciona con robots.txt, me gustaría que funcionara lo mejor posible.

(De hecho, estoy leyendo un par de publicaciones en las que sugieres bloqueo real con un proxy inverso de Nginx, pero no estoy seguro de si necesito llegar tan lejos todavía).

[quote=“ToddZ, post:6, topic:365158”]sugieres bloqueo real con proxy inverso Nginx, pero no estoy seguro de si necesito llegar tan lejos todavía
[/quote]

Eso es un poco extremo. Pero Dark Visitor debería funcionar con la lista de bloqueo de Discourse para ser útil en algún nivel. Claro, con eso no necesitas añadir manualmente, por ejemplo, OpenAI o cualquier otro que siga robots.txt.

Contacté a Dark Visitors al respecto el 3 de mayo de este año, y su respuesta fue “Por el momento no”. Pero veo que la documentación actual enumera aún más tipos ahora.

En este momento, los siguientes tipos son compatibles con la API de Dark Visitors:

Me aseguré de que la configuración en Discourse se pueda extender con tipos de agentes adicionales simplemente agregándolos.

Después de agregar el nuevo tipo y guardar la configuración, el robots.txt debería actualizarse de inmediato con todos los nuevos agentes.

1 me gusta

¡OMG, me perdí por completo el campo “Buscar o crear”! Mi tema tiene un contraste muy bajo allí y se me escapó de la vista. ¡Gracias por la aclaración!