| 概要 | 悪意のあるウェブスクレイパーを妨害するためのコンテンツへの隠しリンクを追加します。 | |
| リポジトリリンク | https://github.com/elmuerte/discourse-poison-fountain | |
| インストールガイド | Discourseでプラグインをインストールする方法 |
特徴
生成されたすべてのページに、毒されたコンテンツへのリンクが追加されます。悪意のあるウェブスクレイパーがこのコンテンツを取得してLLM(大規模言語モデル)のトレーニングに使用した場合、結果として得られるモデルに悪影響を及ぼします。
これらのリンクはユーザーには非表示になっており、rel="nofollow"でマークされ、デフォルトではrobots.txtがウェブスパイダーにこのコンテンツを取得しないように指示します。隠しリンクは、認証されていないリクエストに対してのみ追加されます。
このプラグインはデフォルトで、RNSAFFNから毒されたコンテンツを使用します。詳細については、そのページを参照してください。設定で毒のソースを変更できます。
毒されたコンテンツは、/dpf/<ランダムなスラッグ>/<ID>のようなURLを持つページから提供されます。デフォルトの設定では、/dpf/からのページを数回リクエストしたIPアドレスに対してfail2banルールを作成し、悪意のあるスクレイパーを撃退することができます。
設定
プラグインをインストールして有効にするだけで、バックグラウンドで動作を開始します。追加の設定を調整できます。
設定
設定とその説明の表を含めます
| 名前 | 説明 |
|---|---|
poison_fountain_source |
毒されたページから提供されるコンテンツを生成するウェブサイト。 |
poison_fountain_textual_only |
毒のソースからテキストコンテンツのみを受け入れます。これにより、バイナリコンテンツの提供を防ぎます。 |
poison_fountain_force_plain_text |
ソースがHTMLのようなものを指定した場合でも、コンテンツを常にtext/plainとして提供します。 |
poison_fountain_update_robots_txt |
デフォルトで有効になっており、毒されたコンテンツを除外リストに追加します。robots.txtを尊重するウェブスパイダーは、毒されたコンテンツを完全に無視します。 |
poison_fountain_cache_hours |
コンテンツを再取得する前にキャッシュする時間。最大24時間。 |
poison_fountain_entries |
手元に保持する毒されたエントリの数 |
poison_fountain_link_count |
生成されたHTMLページに追加するリンクの数 |
このプロジェクトはRNSAFFNとは提携していません。そのサービスとの統合を提供します。この統合は、同様に機能する他のサービスを使用するように設定できます。
このプラグインを使用することにより、使用するポイズンファウンテンによって生成されたコンテンツを信頼し、それを転送することになることを認識する必要があります。デフォルトでは、このプラグインは、テキストコンテンツのみをプレーンテキストとして提供することで、このコンテンツを「ほとんど無害」にしようとします。