| | | |
|:information_source: | Resumen | Añade enlaces ocultos al contenido que pueden envenenar a los web scrapers que no se comportan bien.|
|:hammer_and_wrench: | Enlace al Repositorio | \u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e|\n|:open_book: | Guía de Instalación | Cómo instalar plugins en Discourse|\n\n### Características\n\nA cada página generada se le añadirán enlaces a páginas con contenido envenenado. Si un web scraper malicioso consume este contenido y lo utiliza para entrenar un LLM, afectará negativamente al modelo resultante.\n\nEstos enlaces están ocultos para los usuarios, están marcados con rel=\"nofollow\" y, por defecto, el robots.txt indicará a las arañas web que no consuman este contenido. Los enlaces ocultos solo se añaden para solicitudes no autenticadas.\n\nPor defecto, el plugin utiliza el contenido envenenado de RNSAFFN. Consulta esa página para obtener más información. Puedes cambiar la fuente del veneno en la configuración.\n\nEl contenido envenenado se sirve desde páginas con URLs como /dpf/\u003csome-random-slug\u003e/\u003cid\u003e. Con la configuración predeterminada, podrías crear una regla de fail2ban en esa ruta para las IPs que soliciten páginas de /dpf/ unas cuantas veces para defenderse de los malos scrapers.\n\n### Configuración\n\nSolo necesitas instalar y habilitar el plugin para que comience a funcionar en segundo plano. Puedes ajustar algunas configuraciones adicionales.\n\n### Configuración\n\nIncluye una tabla de configuraciones y descripciones de la configuración\n\n| Nombre | Descripción |\n|----|----|\n| poison_fountain_source | El sitio web que genera el contenido que se servirá desde las páginas envenenadas. |\n| poison_fountain_textual_only | Solo acepta contenido textual de la fuente de veneno. Esto evitará servir contenido binario. |\n| poison_fountain_force_plain_text | Siempre sirve el contenido como text/plain incluso si la fuente indicó que era algo como HTML. |\n| poison_fountain_update_robots_txt | Habilitado por defecto, esto añadirá el contenido envenenado a la lista de exclusión. Las arañas web que respeten robots.txt ignorarían por completo el contenido envenenado. |\n| poison_fountain_cache_hours | Horas para almacenar en caché el contenido antes de recuperar contenido nuevo. Máximo de 24 horas. |\n| poison_fountain_entries | Número de entradas envenenadas a mantener |\n| poison_fountain_link_count | Número de enlaces a añadir a las páginas HTML generadas |
7 Me gusta