Fonte de Veneno do Discourse

:information_source: Resumo Adiciona links ocultos ao conteúdo que podem envenenar web scrapers que não se comportam bem.
:hammer_and_wrench: Link do Repositório GitHub - elmuerte/discourse-poison-fountain: Discourse plugin which adds hidden poisoned content to trip bad webscrapers
:open_book: Guia de Instalação Como instalar plugins no Discourse

Funcionalidades

Para cada página gerada, ele adicionará links para páginas com conteúdo envenenado. Se um web scraper mal-intencionado consumir este conteúdo e usá-lo para treinar um LLM, isso afetará negativamente o modelo resultante.

Estes links ficam ocultos para os usuários, são marcados com rel="nofollow" e, por padrão, o robots.txt instruirá os web spiders a não consumirem este conteúdo. Os links ocultos são adicionados apenas para requisições não autenticadas.

O plugin usa por padrão o conteúdo envenenado de RNSAFFN. Consulte essa página para mais informações. Você pode alterar a fonte do veneno nas configurações.

O conteúdo envenenado é servido a partir de páginas com URLs como /dpf/<um-slug-aleatorio>/<id>. Com a configuração padrão, você pode criar uma regra fail2ban nesse caminho para IPs que solicitarem páginas de /dpf/ algumas vezes para afastar scrapers mal-intencionados.

Configuração

Você só precisa instalar e habilitar o plugin para que ele comece a funcionar em segundo plano. Você pode ajustar algumas configurações adicionais.

Configurações

Inclui uma tabela de configurações e descrições das configurações

Nome Descrição
poison_fountain_source O website que gera o conteúdo que será servido a partir das páginas envenenadas.
poison_fountain_update_robots_txt Habilitado por padrão, isso adicionará o conteúdo envenenado à lista de exclusão. Web spiders que respeitam o robots.txt ignorariam completamente o conteúdo envenenado.
poison_fountain_cache_hours Horas para armazenar em cache o conteúdo antes de recuperar conteúdo novo. Máximo de 24 horas.
poison_fountain_entries Número de entradas envenenadas a serem mantidas
poison_fountain_link_count Número de links a serem adicionados às páginas HTML geradas
3 curtidas