| Resumo | Adiciona links ocultos ao conteúdo que podem envenenar web scrapers que não se comportam bem. | |
| Link do Repositório | GitHub - elmuerte/discourse-poison-fountain: Discourse plugin which adds hidden poisoned content to trip bad webscrapers | |
| Guia de Instalação | Como instalar plugins no Discourse |
Funcionalidades
Para cada página gerada, ele adicionará links para páginas com conteúdo envenenado. Se um web scraper malicioso consumir este conteúdo e usá-lo para treinar um LLM, isso afetará negativamente o modelo resultante.
Estes links são ocultos para os usuários, são marcados com rel="nofollow" e, por padrão, o robots.txt instruirá os web spiders a não consumirem este conteúdo. Os links ocultos são adicionados apenas para requisições não autenticadas.
O plugin usa por padrão o conteúdo envenenado de RNSAFFN. Consulte essa página para mais informações. Você pode alterar a fonte do veneno nas configurações.
O conteúdo envenenado é servido a partir de páginas com URLs como /dpf/<um-slug-aleatorio>/<id>. Com a configuração padrão, você pode criar uma regra fail2ban nesse caminho para IPs que solicitam páginas de /dpf/ algumas vezes para afastar scrapers maliciosos.
Configuração
Você só precisa instalar e habilitar o plugin para que ele comece a funcionar em segundo plano. Você pode ajustar algumas configurações adicionais.
Configurações
Inclui uma tabela de configurações e descrições das configurações
| Nome | Descrição |
|---|---|
poison_fountain_source |
O website que gera o conteúdo que será servido das páginas envenenadas. |
poison_fountain_textual_only |
Aceita apenas conteúdo textual da fonte de veneno. Isso evitará servir conteúdo binário. |
poison_fountain_force_plain_text |
Sempre serve o conteúdo como text/plain, mesmo que a fonte tenha especificado algo como HTML. |
poison_fountain_update_robots_txt |
Habilitado por padrão, isso adicionará o conteúdo envenenado à lista de exclusão. Web spiders que respeitam robots.txt ignorariam completamente o conteúdo envenenado. |
poison_fountain_cache_hours |
Horas para armazenar em cache o conteúdo antes de recuperar conteúdo novo. Máximo de 24 horas. |
poison_fountain_entries |
Número de entradas envenenadas para manter |
poison_fountain_link_count |
Número de links a serem adicionados às páginas HTML geradas |