Fontana avvelenata di Discourse

:information_source: Riepilogo Aggiunge collegamenti nascosti ai contenuti che possono avvelenare gli scraper web che non si comportano correttamente.
:hammer_and_wrench: Link al Repository GitHub - elmuerte/discourse-poison-fountain: Discourse plugin which adds hidden poisoned content to trip bad webscrapers
:open_book: Guida all’Installazione Come installare i plugin in Discourse

Funzionalità

Ad ogni pagina generata verranno aggiunti collegamenti a pagine con contenuti avvelenati. Se uno scraper web cattivo consuma questo contenuto e lo utilizza per addestrare un LLM, ciò influirà negativamente sul modello risultante.

Questi collegamenti sono nascosti agli utenti, sono contrassegnati con rel="nofollow" e per impostazione predefinita il robots.txt indicherà ai web spider di non consumare questo contenuto. I collegamenti nascosti vengono aggiunti solo per le richieste non autenticate.

Il plugin utilizza per impostazione predefinita il contenuto avvelenato da RNSAFFN. Consultare quella pagina per ulteriori informazioni. È possibile modificare la sorgente di avvelenamento nelle impostazioni.

Il contenuto avvelenato viene servito da pagine con URL come /dpf/<un-slug-casuale>/<id>. Con la configurazione predefinita, è possibile creare una regola fail2ban su quel percorso per gli IP che richiedono pagine da /dpf/ alcune volte per respingere i cattivi scraper.

Configurazione

È sufficiente installare e abilitare il plugin affinché inizi a fare il suo lavoro in background. È possibile ottimizzare alcune impostazioni aggiuntive.

Impostazioni

Includere una tabella di impostazioni e descrizioni delle impostazioni

Nome Descrizione
poison_fountain_source Il sito web che genera il contenuto che verrà servito dalle pagine avvelenate.
poison_fountain_update_robots_txt Abilitato per impostazione predefinita, questo aggiungerà il contenuto avvelenato alla lista di esclusione. Gli spider web che rispettano robots.txt ignorerebbero completamente il contenuto avvelenato.
poison_fountain_cache_hours Ore per memorizzare nella cache il contenuto prima di recuperare nuovo contenuto. Massimo 24 ore.
poison_fountain_entries Numero di voci avvelenate da mantenere
poison_fountain_link_count Numero di collegamenti da aggiungere alle pagine HTML generate
3 Mi Piace