Fonte de Veneno do Discourse

:information_source: Resumo Adiciona links ocultos ao conteúdo que podem envenenar web scrapers que não se comportam bem.
:hammer_and_wrench: Link do Repositório \u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e
:open_book: Guia de Instalação Como instalar plugins no Discourse

Funcionalidades

Para cada página gerada, ele adicionará links para páginas com conteúdo envenenado. Se um web scraper mal-intencionado consumir este conteúdo e usá-lo para treinar um LLM, isso afetará negativamente o modelo resultante.

Estes links ficam ocultos para os usuários, são marcados com rel="nofollow" e, por padrão, o robots.txt instruirá os web spiders a não consumirem este conteúdo. Os links ocultos são adicionados apenas para requisições não autenticadas.

O plugin, por padrão, utiliza o conteúdo envenenado de RNSAFFN. Consulte essa página para mais informações. Você pode alterar a fonte do veneno nas configurações.

O conteúdo envenenado é servido a partir de páginas com URLs como /dpf/\u003csome-random-slug\u003e/\u003cid\u003e. Com a configuração padrão, você pode criar uma regra fail2ban nesse caminho para IPs que solicitarem páginas de /dpf/ algumas vezes para afastar scrapers mal-intencionados.

Configuração

Você só precisa instalar e habilitar o plugin para que ele comece a funcionar em segundo plano. Você pode ajustar algumas configurações adicionais.

Configurações

Inclui uma tabela de configurações e descrições das configurações

Nome Descrição
poison_fountain_source O website que gera o conteúdo que será servido a partir das páginas envenenadas.
poison_fountain_textual_only Aceita apenas conteúdo textual da fonte de veneno. Isso evitará servir conteúdo binário.
poison_fountain_force_plain_text Sempre serve o conteúdo como text/plain, mesmo que a fonte tenha especificado algo como HTML.
poison_fountain_update_robots_txt Habilitado por padrão, isso adicionará o conteúdo envenenado à lista de exclusão. Web spiders que respeitam robots.txt ignorariam completamente o conteúdo envenenado.
poison_fountain_cache_hours Horas para armazenar em cache o conteúdo antes de recuperar novo conteúdo. Máximo de 24 horas.
poison_fountain_entries Número de entradas envenenadas para manter
poison_fountain_link_count Número de links a serem adicionados às páginas HTML geradas
7 curtidas