| Resumen | Añade enlaces ocultos al contenido que pueden envenenar a los web scrapers que no se comportan bien. | |
| Enlace al Repositorio | \u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e |
8 Me gusta
Me gusta esta idea. Gracias por compartir.
Aquí está el archivo robots.txt que utiliza Cloudflare (se añade al tuyo) (también lo pongo a continuación)
En caso de que a alguien le interesen estas cosas ![]()
# Como condición para acceder a este sitio web, usted acepta acatar las siguientes
# señales de contenido:
# (a) Si una Señal-de-Contenido = sí, puede recopilar contenido para el uso
# correspondiente.
# (b) Si una Señal-de-Contenido = no, no puede recopilar contenido para el uso
# correspondiente.
# (c) Si el operador del sitio web no incluye una Señal-de-Contenido para un
# uso correspondiente, el operador del sitio web no concede ni restringe el
# permiso mediante la Señal-de-Contenido con respecto al uso
# correspondiente.
# Las señales de contenido y sus significados son:
# search: construir un índice de búsqueda y proporcionar resultados de búsqueda (por
# ejemplo, devolviendo hipervínculos y extractos cortos del contenido de
# su sitio web). La búsqueda no incluye proporcionar resúmenes de
# búsqueda generados por IA.
# ai-input: introducir contenido en uno o más modelos de IA (por ejemplo,
# generación aumentada por recuperación, conexión a tierra u otra
# toma en tiempo real de contenido para respuestas de búsqueda de IA
# generativa).
# ai-train: entrenar o ajustar modelos de IA.
# CUALQUIER RESTRICCIÓN EXPRESADA MEDIANTE SEÑALES DE CONTENIDO SON RESERVAS
# EXPRESAS DE DERECHOS EN VIRTUD DEL ARTÍCULO 4 DE LA DIRECTIVA DE LA UNIÓN
# EUROPEA 2019/790 SOBRE DERECHOS DE AUTOR Y DERECHOS CONEXOS EN EL MERCADO
# ÚNICO DIGITAL.
# BEGIN Cloudflare Managed content
User-agent: *
Content-Signal: search=yes,ai-train=no
Allow: /
User-agent: Amazonbot
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: meta-externalagent
Disallow: /
# END Cloudflare Managed Content
User-agent: *
Disallow: /lp
Disallow: /feedback
Disallow: /langtest
Sitemap: https://www.crawlstop.com/sitemap.xml