نافورة السم في Discourse

:information_source: ملخص أضف روابط مخفية إلى المحتوى يمكنها تسميم كاشطات الويب التي لا تتعاون.
:hammer_and_wrench: رابط المستودع https://github.com/elmuerte/discourse-poison-fountain
:open_book: دليل التثبيت كيفية تثبيت الإضافات في Discourse

الميزات

لكل صفحة تم إنشاؤها، ستتم إضافة روابط إلى صفحات تحتوي على محتوى مسموم. إذا قامت كاشطة ويب سيئة باستهلاك هذا المحتوى واستخدمته لتدريب نموذج لغوي كبير (LLM)، فسيؤثر ذلك سلبًا على النموذج الناتج.

هذه الروابط مخفية عن المستخدمين، ويتم تمييزها بـ rel="nofollow"، وبشكل افتراضي، سيخبر ملف robots.txt عناكب الويب بعدم استهلاك هذا المحتوى. تتم إضافة الروابط المخفية فقط للطلبات غير المصادق عليها.

تستخدم الإضافة بشكل افتراضي المحتوى المسموم من RNSAFFN. راجع تلك الصفحة لمزيد من المعلومات. يمكنك تغيير مصدر السم في الإعدادات.

يتم تقديم المحتوى المسموم من صفحات ذات عناوين URL مثل /dpf/<some-random-slug>/<id>. باستخدام التكوين الافتراضي، يمكنك إنشاء قاعدة fail2ban على هذا المسار لعنوان IP الذي يطلب صفحات من /dpf/ عدة مرات لصد كاشطات الويب السيئة.

الإعداد (Configuration)

تحتاج فقط إلى تثبيت الإضافة وتمكينها لتبدأ في العمل في الخلفية. يمكنك ضبط بعض الإعدادات الإضافية.

الإعدادات (Settings)

تضمين جدول بالإعدادات وأوصافها

الاسم الوصف
poison_fountain_source الموقع الإلكتروني الذي ينشئ المحتوى الذي سيتم تقديمه من الصفحات المسمومة.
poison_fountain_textual_only قبول المحتوى النصي فقط من مصدر السم. سيمنع هذا تقديم محتوى ثنائي.
poison_fountain_force_plain_text تقديم المحتوى دائمًا كـ text/plain حتى لو ذكر المصدر أنه شيء ما، مثل HTML.
poison_fountain_update_robots_txt ممكّن بشكل افتراضي، سيضيف هذا المحتوى المسموم إلى قائمة الاستبعاد. عناكب الويب التي تحترم robots.txt ستتجاهل المحتوى المسموم تمامًا.
poison_fountain_cache_hours عدد الساعات لتخزين المحتوى مؤقتًا قبل استرداد محتوى جديد. الحد الأقصى 24 ساعة.
poison_fountain_entries عدد الإدخالات المسمومة التي سيتم الاحتفاظ بها
poison_fountain_link_count عدد الروابط التي ستتم إضافتها إلى صفحات HTML التي تم إنشاؤها

هذا المشروع غير تابع لـ RNSAFFN. إنه يوفر تكاملاً مع خدمتهم. يمكن تكوين هذا التكامل لاستخدام خدمة أخرى تعمل بطريقة مماثلة.

يجب أن تدرك أنه باستخدام هذه الإضافة، فإنك تثق في المحتوى الذي تم إنشاؤه بواسطة نافورة السم المستخدمة، وأنك تقوم بإعادة توجيهه. بشكل افتراضي، ستحاول هذه الإضافة جعل هذا المحتوى “غير ضار في الغالب”، حيث تقدم المحتوى النصي فقط كنص عادي.

7 إعجابات

أعجبني هذا الاقتراح. شكرًا على المشاركة.

إليك ملف robots.txt الذي يستخدمه كلودفلير (يُضاف إلى ملفك الخاص) (لقد وضعته أدناه أيضًا)

في حال كان أي شخص مهتمًا بمثل هذه الأشياء :slight_smile:

# كشرط للوصول إلى هذا الموقع، فإنك توافق على الالتزام بما يلي
# إشارات المحتوى:

# (أ) إذا كانت إشارة المحتوى = نعم، فيجوز لك جمع المحتوى للاستخدام المقابل.
# (ب) إذا كانت إشارة المحتوى = لا، فلا يجوز لك جمع المحتوى للاستخدام المقابل.
# (ج) إذا لم يقم مشغل الموقع بتضمين إشارة محتوى للاستخدام المقابل، فإن مشغل الموقع لا يمنح ولا يقيد الإذن عبر إشارة المحتوى فيما يتعلق بالاستخدام المقابل.

# إشارات المحتوى ومعانيها هي:

# search: بناء فهرس بحث وتقديم نتائج البحث (على سبيل المثال، إرجاع
# الارتباطات التشعبية والمقتطفات القصيرة من محتويات موقعك). لا يشمل البحث تقديم ملخصات بحث تم إنشاؤها بواسطة الذكاء الاصطناعي.
# ai-input: إدخال المحتوى في نموذج واحد أو أكثر من نماذج الذكاء الاصطناعي (على سبيل المثال، التوليد المعزز بالاسترجاع، أو التأسيس، أو الأخذ في الوقت الفعلي للمحتوى لـ
# إجابات البحث التوليدية بالذكاء الاصطناعي).
# ai-train: تدريب نماذج الذكاء الاصطناعي أو ضبطها بدقة.

# أي قيود معبر عنها عبر إشارات المحتوى هي تحفظات صريحة للحقوق بموجب المادة 4 من توجيه الاتحاد الأوروبي 2019/790 بشأن حقوق النشر والحقوق ذات الصلة في السوق الرقمية الموحدة.

# BEGIN Cloudflare Managed content

User-agent: *
Content-Signal: search=yes,ai-train=no
Allow: /

User-agent: Amazonbot
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: meta-externalagent
Disallow: /

# END Cloudflare Managed Content

User-agent: *
Disallow: /lp
Disallow: /feedback
Disallow: /langtest


Sitemap: https://www.crawlstop.com/sitemap.xml