Fontana avvelenata di Discourse

| | | |
|:information_source: | Riepilogo | Aggiunge collegamenti nascosti ai contenuti che possono avvelenare gli scraper web che non si comportano correttamente.|
|:hammer_and_wrench: | Link al Repository | \u003chttps://github.com/elmuerte/discourse-poison-fountain\u003e|
|:open_book: | Guida all’Installazione | Come installare i plugin in Discourse|

Funzionalità

Ad ogni pagina generata verranno aggiunti collegamenti a pagine con contenuti avvelenati. Se uno scraper web malintenzionato consuma questo contenuto e lo utilizza per addestrare un LLM, ciò influirà negativamente sul modello risultante.

Questi collegamenti sono nascosti agli utenti, sono contrassegnati con rel="nofollow" e per impostazione predefinita il robots.txt indicherà ai web spider di non consumare questo contenuto. I collegamenti nascosti vengono aggiunti solo per le richieste non autenticate.

Il plugin utilizza per impostazione predefinita il contenuto avvelenato da RNSAFFN. Consultare quella pagina per ulteriori informazioni. È possibile modificare la fonte di avvelenamento nelle impostazioni.

Il contenuto avvelenato viene servito da pagine con URL simili a /dpf/\u003csome-random-slug\u003e/\u003cid\u003e. Con la configurazione predefinita, è possibile creare una regola fail2ban su tale percorso per gli IP che richiedono pagine da /dpf/ alcune volte per respingere gli scraper cattivi.

Configurazione

È sufficiente installare e abilitare il plugin affinché inizi a fare il suo lavoro in background. È possibile ottimizzare alcune impostazioni aggiuntive.

Impostazioni

Includere una tabella di impostazioni e descrizioni delle impostazioni

Nome Descrizione
poison_fountain_source Il sito web che genera il contenuto che verrà servito dalle pagine avvelenate.
poison_fountain_textual_only Accetta solo contenuto testuale dalla fonte di avvelenamento. Ciò impedirà la fornitura di contenuto binario.
poison_fountain_force_plain_text Forza sempre la fornitura del contenuto come text/plain anche se la fonte indicava qualcosa come HTML.
poison_fountain_update_robots_txt Abilitato per impostazione predefinita, questo aggiungerà il contenuto avvelenato all’elenco di esclusione. Gli spider web che rispettano robots.txt ignorerebbero completamente il contenuto avvelenato.
poison_fountain_cache_hours Ore per memorizzare nella cache il contenuto prima di recuperare nuovo contenuto. Massimo 24 ore.
poison_fountain_entries Numero di voci avvelenate da mantenere
poison_fountain_link_count Numero di collegamenti da aggiungere alle pagine HTML generate

Questo progetto non è affiliato con RNSAFFN. Fornisce un’integrazione con il loro servizio. Questa integrazione può essere configurata per utilizzare un altro servizio con funzionamento simile.

Dovresti renderti conto che utilizzando questo plugin ti fiderai del contenuto generato dalla fontana di avvelenamento utilizzata e che lo stai inoltrando. Per impostazione predefinita, questo plugin cercherà di rendere questo contenuto “per lo più innocuo”, servendo solo contenuto testuale come testo semplice.

7 Mi Piace