Discourse Poison Fountain

:information_source: 概要 悪意のあるウェブスクレイパーを妨害するためのコンテンツへの隠しリンクを追加します。
:hammer_and_wrench: リポジトリリンク https://github.com/elmuerte/discourse-poison-fountain
:open_book: インストールガイド Discourseでプラグインをインストールする方法

特徴

生成されたすべてのページに、毒されたコンテンツへのリンクが追加されます。悪意のあるウェブスクレイパーがこのコンテンツを取得してLLM(大規模言語モデル)のトレーニングに使用した場合、結果として得られるモデルに悪影響を及ぼします

これらのリンクはユーザーには非表示になっており、rel="nofollow"でマークされ、デフォルトではrobots.txtがウェブスパイダーにこのコンテンツを取得しないように指示します。隠しリンクは、認証されていないリクエストに対してのみ追加されます。

このプラグインはデフォルトで、RNSAFFNから毒されたコンテンツを使用します。詳細については、そのページを参照してください。設定で毒のソースを変更できます。

毒されたコンテンツは、/dpf/<ランダムなスラッグ>/<ID>のようなURLを持つページから提供されます。デフォルトの設定では、/dpf/からのページを数回リクエストしたIPアドレスに対してfail2banルールを作成し、悪意のあるスクレイパーを撃退することができます。

設定

プラグインをインストールして有効にするだけで、バックグラウンドで動作を開始します。追加の設定を調整できます。

設定

設定とその説明の表を含めます

名前 説明
poison_fountain_source 毒されたページから提供されるコンテンツを生成するウェブサイト。
poison_fountain_textual_only 毒のソースからテキストコンテンツのみを受け入れます。これにより、バイナリコンテンツの提供を防ぎます。
poison_fountain_force_plain_text ソースがHTMLのようなものを指定した場合でも、コンテンツを常にtext/plainとして提供します。
poison_fountain_update_robots_txt デフォルトで有効になっており、毒されたコンテンツを除外リストに追加します。robots.txtを尊重するウェブスパイダーは、毒されたコンテンツを完全に無視します。
poison_fountain_cache_hours コンテンツを再取得する前にキャッシュする時間。最大24時間。
poison_fountain_entries 手元に保持する毒されたエントリの数
poison_fountain_link_count 生成されたHTMLページに追加するリンクの数

このプロジェクトはRNSAFFNとは提携していません。そのサービスとの統合を提供します。この統合は、同様に機能する他のサービスを使用するように設定できます。

このプラグインを使用することにより、使用するポイズンファウンテンによって生成されたコンテンツを信頼し、それを転送することになることを認識する必要があります。デフォルトでは、このプラグインは、テキストコンテンツのみをプレーンテキストとして提供することで、このコンテンツを「ほとんど無害」にしようとします。

「いいね!」 8

このアイデアは気に入りました。共有してくれてありがとうございます。

Cloudflareが使用するrobots.txtファイルはこちらです(ご自身のファイルに追記されます) (以下にも記載しています)

ご興味のある方はどうぞ :slight_smile:

# このウェブサイトへのアクセス条件として、以下の
# コンテンツシグナルを遵守することに同意するものとします。

# (a) Content-Signal = yes の場合、対応する目的に対してコンテンツを収集できます。
# (b) Content-Signal = no の場合、対応する目的のためにコンテンツを収集することはできません。
# (c) ウェブサイト運営者が対応する目的について Content-Signal を含めていない場合、
#     ウェブサイト運営者は Content-Signal によって、対応する目的に関して
#     許可を与えることも制限することもありません。

# コンテンツシグナルとその意味は次のとおりです。

# search: 検索インデックスの構築と検索結果の提供(例:ウェブサイトのコンテンツの
#         ハイパーリンクや短い抜粋を返すこと)。検索には、AI生成の検索要約の
#         提供は含まれません。
# ai-input: 1つ以上のAIモデルへのコンテンツの入力(例:検索拡張生成、グラウンディング、
#           または生成AI検索の回答のためにコンテンツをリアルタイムで取得するその他の
#           処理)。
# ai-train: AIモデルのトレーニングまたはファインチューニング。

# コンテンツシグナルによって表明されたいかなる制限も、デジタル単一市場における
# 著作権および関連する権利に関する欧州連合指令 2019/790 の第4条に基づく
# 権利の明示的な留保です。

# BEGIN Cloudflare Managed content

User-agent: *
Content-Signal: search=yes,ai-train=no
Allow: /

User-agent: Amazonbot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: meta-externalagent
Disallow: /

# END Cloudflare Managed Content

User-agent: *
Disallow: /lp
Disallow: /feedback
Disallow: /langtest


Sitemap: https://www.crawlstop.com/sitemap.xml