Discourse Poison Fountain

elmuerte · 2026 年 1 月 20 日午後 8:29


	概要	悪意のあるウェブスクレイパーを妨害するためのコンテンツへの隠しリンクを追加します。
	リポジトリリンク	https://github.com/elmuerte/discourse-poison-fountain
	インストールガイド	Discourseでプラグインをインストールする方法

特徴

生成されたすべてのページに、毒されたコンテンツへのリンクが追加されます。悪意のあるウェブスクレイパーがこのコンテンツを取得してLLM（大規模言語モデル）のトレーニングに使用した場合、結果として得られるモデルに悪影響を及ぼします。

これらのリンクはユーザーには非表示になっており、rel="nofollow"でマークされ、デフォルトではrobots.txtがウェブスパイダーにこのコンテンツを取得しないように指示します。隠しリンクは、認証されていないリクエストに対してのみ追加されます。

このプラグインはデフォルトで、RNSAFFNから毒されたコンテンツを使用します。詳細については、そのページを参照してください。設定で毒のソースを変更できます。

毒されたコンテンツは、/dpf/<ランダムなスラッグ>/<ID>のようなURLを持つページから提供されます。デフォルトの設定では、/dpf/からのページを数回リクエストしたIPアドレスに対してfail2banルールを作成し、悪意のあるスクレイパーを撃退することができます。

設定

プラグインをインストールして有効にするだけで、バックグラウンドで動作を開始します。追加の設定を調整できます。

設定

設定とその説明の表を含めます

名前	説明
`poison_fountain_source`	毒されたページから提供されるコンテンツを生成するウェブサイト。
`poison_fountain_textual_only`	毒のソースからテキストコンテンツのみを受け入れます。これにより、バイナリコンテンツの提供を防ぎます。
`poison_fountain_force_plain_text`	ソースがHTMLのようなものを指定した場合でも、コンテンツを常に`text/plain`として提供します。
`poison_fountain_update_robots_txt`	デフォルトで有効になっており、毒されたコンテンツを除外リストに追加します。`robots.txt`を尊重するウェブスパイダーは、毒されたコンテンツを完全に無視します。
`poison_fountain_cache_hours`	コンテンツを再取得する前にキャッシュする時間。最大24時間。
`poison_fountain_entries`	手元に保持する毒されたエントリの数
`poison_fountain_link_count`	生成されたHTMLページに追加するリンクの数

このプロジェクトはRNSAFFNとは提携していません。そのサービスとの統合を提供します。この統合は、同様に機能する他のサービスを使用するように設定できます。

このプラグインを使用することにより、使用するポイズンファウンテンによって生成されたコンテンツを信頼し、それを転送することになることを認識する必要があります。デフォルトでは、このプラグインは、テキストコンテンツのみをプレーンテキストとして提供することで、このコンテンツを「ほとんど無害」にしようとします。

beeburrt · 2026 年 3 月 18 日午前 10:40

このアイデアは気に入りました。共有してくれてありがとうございます。

Cloudflareが使用するrobots.txtファイルはこちらです（ご自身のファイルに追記されます）（以下にも記載しています）

ご興味のある方はどうぞ

# このウェブサイトへのアクセス条件として、以下の
# コンテンツシグナルを遵守することに同意するものとします。

# (a) Content-Signal = yes の場合、対応する目的に対してコンテンツを収集できます。
# (b) Content-Signal = no の場合、対応する目的のためにコンテンツを収集することはできません。
# (c) ウェブサイト運営者が対応する目的について Content-Signal を含めていない場合、
#     ウェブサイト運営者は Content-Signal によって、対応する目的に関して
#     許可を与えることも制限することもありません。

# コンテンツシグナルとその意味は次のとおりです。

# search: 検索インデックスの構築と検索結果の提供（例：ウェブサイトのコンテンツの
#         ハイパーリンクや短い抜粋を返すこと）。検索には、AI生成の検索要約の
#         提供は含まれません。
# ai-input: 1つ以上のAIモデルへのコンテンツの入力（例：検索拡張生成、グラウンディング、
#           または生成AI検索の回答のためにコンテンツをリアルタイムで取得するその他の
#           処理）。
# ai-train: AIモデルのトレーニングまたはファインチューニング。

# コンテンツシグナルによって表明されたいかなる制限も、デジタル単一市場における
# 著作権および関連する権利に関する欧州連合指令 2019/790 の第4条に基づく
# 権利の明示的な留保です。

# BEGIN Cloudflare Managed content

User-agent: *
Content-Signal: search=yes,ai-train=no
Allow: /

User-agent: Amazonbot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: meta-externalagent
Disallow: /

# END Cloudflare Managed Content

User-agent: *
Disallow: /lp
Disallow: /feedback
Disallow: /langtest


Sitemap: https://www.crawlstop.com/sitemap.xml

トピック		返信	表示
Preventing malicious linking Feature	34	4941	2017 年 12 月 24 日
Add more prohibited links to screened URLs Support	1	627	2019 年 2 月 19 日
Add to robots.txt some CloudFlare path to avoid crawlers inspect incorrectly Development	1	1288	2022 年 10 月 21 日
Block crawlers from embedded topics only? Support	17	843	2023 年 6 月 20 日
🤖 Discourse llms.txt Generator Plugin Plugin ai	4	517	2026 年 4 月 11 日

Discourse Poison Fountain

特徴

設定

設定

関連トピック