| | | |
|:information_source: | Riepilogo | Aggiunge collegamenti nascosti ai contenuti che possono avvelenare gli scraper web che non si comportano correttamente.|
|:hammer_and_wrench: | Link al Repository | \u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e|
|:open_book: | Guida all’Installazione | Come installare i plugin in Discourse|
Funzionalità
Ad ogni pagina generata verranno aggiunti collegamenti a pagine con contenuti avvelenati. Se uno scraper web malintenzionato consuma questo contenuto e lo utilizza per addestrare un LLM, ciò influirà negativamente sul modello risultante.
Questi collegamenti sono nascosti agli utenti, sono contrassegnati con rel="nofollow" e per impostazione predefinita il robots.txt indicherà ai web spider di non consumare questo contenuto. I collegamenti nascosti vengono aggiunti solo per le richieste non autenticate.
Il plugin utilizza per impostazione predefinita il contenuto avvelenato da RNSAFFN. Consultare quella pagina per ulteriori informazioni. È possibile modificare la fonte di avvelenamento nelle impostazioni.
Il contenuto avvelenato viene servito da pagine con URL simili a /dpf/\u003csome-random-slug\u003e/\u003cid\u003e. Con la configurazione predefinita, è possibile creare una regola fail2ban su tale percorso per gli IP che richiedono pagine da /dpf/ alcune volte per respingere gli scraper cattivi.
Configurazione
È sufficiente installare e abilitare il plugin affinché inizi a fare il suo lavoro in background. È possibile ottimizzare alcune impostazioni aggiuntive.
Impostazioni
Includere una tabella di impostazioni e descrizioni delle impostazioni
| Nome | Descrizione |
|---|---|
poison_fountain_source |
Il sito web che genera il contenuto che verrà servito dalle pagine avvelenate. |
poison_fountain_textual_only |
Accetta solo contenuto testuale dalla fonte di avvelenamento. Ciò impedirà la fornitura di contenuto binario. |
poison_fountain_force_plain_text |
Forza sempre la fornitura del contenuto come text/plain anche se la fonte indicava qualcosa come HTML. |
poison_fountain_update_robots_txt |
Abilitato per impostazione predefinita, questo aggiungerà il contenuto avvelenato all’elenco di esclusione. Gli spider web che rispettano robots.txt ignorerebbero completamente il contenuto avvelenato. |
poison_fountain_cache_hours |
Ore per memorizzare nella cache il contenuto prima di recuperare nuovo contenuto. Massimo 24 ore. |
poison_fountain_entries |
Numero di voci avvelenate da mantenere |
poison_fountain_link_count |
Numero di collegamenti da aggiungere alle pagine HTML generate |
Questo progetto non è affiliato con RNSAFFN. Fornisce un’integrazione con il loro servizio. Questa integrazione può essere configurata per utilizzare un altro servizio con funzionamento simile.
Dovresti renderti conto che utilizzando questo plugin ti fiderai del contenuto generato dalla fontana di avvelenamento utilizzata e che lo stai inoltrando. Per impostazione predefinita, questo plugin cercherà di rendere questo contenuto “per lo più innocuo”, servendo solo contenuto testuale come testo semplice.