| Riepilogo | Aggiunge collegamenti nascosti ai contenuti che possono avvelenare gli scraper web che non si comportano correttamente. | |
| Link al Repository | GitHub - elmuerte/discourse-poison-fountain: Discourse plugin which adds hidden poisoned content to trip bad webscrapers | |
| Guida all’Installazione | Come installare i plugin in Discourse |
Funzionalità
Ad ogni pagina generata verranno aggiunti collegamenti a pagine con contenuti avvelenati. Se uno scraper web cattivo consuma questo contenuto e lo utilizza per addestrare un LLM, ciò influirà negativamente sul modello risultante.
Questi collegamenti sono nascosti agli utenti, sono contrassegnati con rel="nofollow" e per impostazione predefinita il robots.txt indicherà ai web spider di non consumare questo contenuto. I collegamenti nascosti vengono aggiunti solo per le richieste non autenticate.
Il plugin utilizza per impostazione predefinita il contenuto avvelenato da RNSAFFN. Consultare quella pagina per ulteriori informazioni. È possibile modificare la sorgente di avvelenamento nelle impostazioni.
Il contenuto avvelenato viene servito da pagine con URL come /dpf/<un-slug-casuale>/<id>. Con la configurazione predefinita, è possibile creare una regola fail2ban su quel percorso per gli IP che richiedono pagine da /dpf/ alcune volte per respingere i cattivi scraper.
Configurazione
È sufficiente installare e abilitare il plugin affinché inizi a fare il suo lavoro in background. È possibile ottimizzare alcune impostazioni aggiuntive.
Impostazioni
Includere una tabella di impostazioni e descrizioni delle impostazioni
| Nome | Descrizione |
|---|---|
poison_fountain_source |
Il sito web che genera il contenuto che verrà servito dalle pagine avvelenate. |
poison_fountain_update_robots_txt |
Abilitato per impostazione predefinita, questo aggiungerà il contenuto avvelenato alla lista di esclusione. Gli spider web che rispettano robots.txt ignorerebbero completamente il contenuto avvelenato. |
poison_fountain_cache_hours |
Ore per memorizzare nella cache il contenuto prima di recuperare nuovo contenuto. Massimo 24 ore. |
poison_fountain_entries |
Numero di voci avvelenate da mantenere |
poison_fountain_link_count |
Numero di collegamenti da aggiungere alle pagine HTML generate |