Fuente de veneno de Discourse

:information_source: Resumen Añade enlaces ocultos al contenido que pueden envenenar a los web scrapers que no se comportan bien.
:hammer_and_wrench: Enlace al Repositorio \u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e
7 Me gusta

Me gusta esta idea. Gracias por compartir.

Aquí está el archivo robots.txt que utiliza Cloudflare (se añade al tuyo) (también lo pongo a continuación)

En caso de que a alguien le interesen estas cosas :slight_smile:

# Como condición para acceder a este sitio web, usted acepta acatar las siguientes
# señales de contenido:

# (a)  Si una Señal-de-Contenido = sí, puede recopilar contenido para el uso
#      correspondiente.
# (b)  Si una Señal-de-Contenido = no, no puede recopilar contenido para el uso
#      correspondiente.
# (c)  Si el operador del sitio web no incluye una Señal-de-Contenido para un
#      uso correspondiente, el operador del sitio web no concede ni restringe el
#      permiso mediante la Señal-de-Contenido con respecto al uso
#      correspondiente.

# Las señales de contenido y sus significados son:

# search:   construir un índice de búsqueda y proporcionar resultados de búsqueda (por
#           ejemplo, devolviendo hipervínculos y extractos cortos del contenido de
#           su sitio web). La búsqueda no incluye proporcionar resúmenes de
#           búsqueda generados por IA.
# ai-input: introducir contenido en uno o más modelos de IA (por ejemplo,
#           generación aumentada por recuperación, conexión a tierra u otra
#           toma en tiempo real de contenido para respuestas de búsqueda de IA
#           generativa).
# ai-train: entrenar o ajustar modelos de IA.

# CUALQUIER RESTRICCIÓN EXPRESADA MEDIANTE SEÑALES DE CONTENIDO SON RESERVAS
# EXPRESAS DE DERECHOS EN VIRTUD DEL ARTÍCULO 4 DE LA DIRECTIVA DE LA UNIÓN
# EUROPEA 2019/790 SOBRE DERECHOS DE AUTOR Y DERECHOS CONEXOS EN EL MERCADO
# ÚNICO DIGITAL.

# BEGIN Cloudflare Managed content

User-agent: *
Content-Signal: search=yes,ai-train=no
Allow: /

User-agent: Amazonbot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: meta-externalagent
Disallow: /

# END Cloudflare Managed Content

User-agent: *
Disallow: /lp
Disallow: /feedback
Disallow: /langtest


Sitemap: https://www.crawlstop.com/sitemap.xml