Discourse Poison Fountain

:information_source: 概要 悪意のあるウェブスクレイパーを妨害するためのコンテンツへの隠しリンクを追加します。
:hammer_and_wrench: リポジトリリンク https://github.com/elmuerte/discourse-poison-fountain
:open_book: インストールガイド Discourseでプラグインをインストールする方法

特徴

生成されたすべてのページに、毒されたコンテンツへのリンクが追加されます。悪意のあるウェブスクレイパーがこのコンテンツを取得し、LLM(大規模言語モデル)のトレーニングに使用した場合、結果として得られるモデルに悪影響を及ぼします

これらのリンクはユーザーには非表示になっており、rel="nofollow"でマークされ、デフォルトではrobots.txtがウェブスパイダーにこのコンテンツを取得しないように指示します。隠しリンクは、認証されていないリクエストに対してのみ追加されます。

このプラグインはデフォルトで、RNSAFFNから毒されたコンテンツを使用します。詳細については、そのページを参照してください。設定で毒のソースを変更できます。

毒されたコンテンツは、/dpf/<ランダムなスラッグ>/<ID>のようなURLを持つページから提供されます。デフォルトの設定では、/dpf/のページを数回リクエストしたIPアドレスに対してfail2banルールを作成し、悪意のあるスクレイパーを撃退することができます。

設定

プラグインをインストールして有効にするだけで、バックグラウンドで動作を開始します。いくつかの追加設定を調整できます。

設定

設定とその説明の表を含めます

名前 説明
poison_fountain_source 毒されたページから提供されるコンテンツを生成するウェブサイト。
poison_fountain_textual_only 毒のソースからテキストコンテンツのみを受け入れます。これにより、バイナリコンテンツの提供を防ぎます。
poison_fountain_force_plain_text ソースがHTMLのようなものを指定した場合でも、コンテンツを常にtext/plainとして提供します。
poison_fountain_update_robots_txt デフォルトで有効。これにより、毒されたコンテンツが除外リストに追加されます。robots.txtを尊重するウェブスパイダーは、毒されたコンテンツを完全に無視します。
poison_fountain_cache_hours 新しいコンテンツを取得する前にキャッシュする時間(時間単位)。最大24時間。
poison_fountain_entries 手元に保持する毒されたエントリの数
poison_fountain_link_count 生成されたHTMLページに追加するリンクの数
「いいね!」 7