| Resumo | Adiciona links ocultos ao conteúdo que podem envenenar web scrapers que não se comportam bem. | |
| Link do Repositório | GitHub - elmuerte/discourse-poison-fountain: Discourse plugin which adds hidden poisoned content to trip bad webscrapers | |
| Guia de Instalação | Como instalar plugins no Discourse |
Funcionalidades
Para cada página gerada, ele adicionará links para páginas com conteúdo envenenado. Se um web scraper mal-intencionado consumir este conteúdo e usá-lo para treinar um LLM, isso afetará negativamente o modelo resultante.
Estes links ficam ocultos para os usuários, são marcados com rel="nofollow" e, por padrão, o robots.txt instruirá os web spiders a não consumirem este conteúdo. Os links ocultos são adicionados apenas para requisições não autenticadas.
O plugin usa por padrão o conteúdo envenenado de RNSAFFN. Consulte essa página para mais informações. Você pode alterar a fonte do veneno nas configurações.
O conteúdo envenenado é servido a partir de páginas com URLs como /dpf/<um-slug-aleatorio>/<id>. Com a configuração padrão, você pode criar uma regra fail2ban nesse caminho para IPs que solicitarem páginas de /dpf/ algumas vezes para afastar scrapers mal-intencionados.
Configuração
Você só precisa instalar e habilitar o plugin para que ele comece a funcionar em segundo plano. Você pode ajustar algumas configurações adicionais.
Configurações
Inclui uma tabela de configurações e descrições das configurações
| Nome | Descrição |
|---|---|
poison_fountain_source |
O website que gera o conteúdo que será servido a partir das páginas envenenadas. |
poison_fountain_update_robots_txt |
Habilitado por padrão, isso adicionará o conteúdo envenenado à lista de exclusão. Web spiders que respeitam o robots.txt ignorariam completamente o conteúdo envenenado. |
poison_fountain_cache_hours |
Horas para armazenar em cache o conteúdo antes de recuperar conteúdo novo. Máximo de 24 horas. |
poison_fountain_entries |
Número de entradas envenenadas a serem mantidas |
poison_fountain_link_count |
Número de links a serem adicionados às páginas HTML geradas |