| Resumo | Adiciona links ocultos ao conteúdo que podem envenenar web scrapers que não se comportam bem. | |
| Link do Repositório | \u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e | |
| Guia de Instalação | Como instalar plugins no Discourse |
Funcionalidades
Para cada página gerada, ele adicionará links para páginas com conteúdo envenenado. Se um web scraper mal-intencionado consumir este conteúdo e usá-lo para treinar um LLM, isso afetará negativamente o modelo resultante.
Estes links são ocultos para os usuários, são marcados com rel=\"nofollow\" e, por padrão, o robots.txt instruirá os web spiders a não consumirem este conteúdo. Os links ocultos são adicionados apenas para requisições não autenticadas.
O plugin usa por padrão o conteúdo envenenado de RNSAFFN. Consulte essa página para mais informações. Você pode alterar a fonte do veneno nas configurações.
O conteúdo envenenado é servido a partir de páginas com URLs como /dpf/\u003csome-random-slug\u003e/\u003cid\u003e. Com a configuração padrão, você pode criar uma regra fail2ban nesse caminho para IPs que solicitam páginas de /dpf/ algumas vezes para afastar scrapers mal-intencionados.
Configuração
Você só precisa instalar e habilitar o plugin para que ele comece a funcionar em segundo plano. Você pode ajustar algumas configurações adicionais.
Configurações
Inclui uma tabela de configurações e descrições das configurações
| Nome | Descrição |
|---|---|
poison_fountain_source |
O website que gera o conteúdo que será servido a partir das páginas envenenadas. |
poison_fountain_textual_only |
Aceita apenas conteúdo textual da fonte de veneno. Isso evitará servir conteúdo binário. |
poison_fountain_force_plain_text |
Sempre serve o conteúdo como text/plain, mesmo que a fonte tenha especificado algo como HTML. |
poison_fountain_update_robots_txt |
Habilitado por padrão, isso adicionará o conteúdo envenenado à lista de exclusão. Web spiders que respeitam robots.txt ignorariam completamente o conteúdo envenenado. |
poison_fountain_cache_hours |
Horas para cachear o conteúdo antes de recuperar novo conteúdo. Máximo de 24 horas. |
poison_fountain_entries |
Número de entradas envenenadas para manter |
poison_fountain_link_count |
Número de links a serem adicionados às páginas HTML geradas |
Este projeto não é afiliado à RNSAFFN. Ele fornece uma integração com o serviço deles. Esta integração pode ser configurada para usar outro serviço com funcionamento semelhante.
Você deve perceber que, ao usar este plugin, você estará confiando no conteúdo gerado pela fonte de veneno utilizada e que você o está encaminhando. Por padrão, este plugin tentará tornar este conteúdo “inofensivo”, servindo apenas conteúdo textual como texto simples.