| ملخص | إضافة روابط مخفية إلى المحتوى يمكن أن تسمم كاشطات الويب التي لا تتعاون. | |
| رابط المستودع | GitHub - elmuerte/discourse-poison-fountain: Discourse plugin which adds hidden poisoned content to trip bad webscrapers | |
| دليل التثبيت | كيفية تثبيت الإضافات في Discourse |
الميزات
إلى كل صفحة تم إنشاؤها، ستتم إضافة روابط إلى صفحات تحتوي على محتوى مسمم. إذا قامت كاشطة ويب سيئة باستهلاك هذا المحتوى واستخدامه لتدريب نموذج لغوي كبير (LLM)، فسيؤثر ذلك سلبًا على النموذج الناتج.
هذه الروابط مخفية عن المستخدمين، ويتم تمييزها بـ rel="nofollow" وبشكل افتراضي، سيخبر ملف robots.txt عناكب الويب بعدم استهلاك هذا المحتوى. تتم إضافة الروابط المخفية فقط للطلبات غير المصادق عليها.
تستخدم الإضافة بشكل افتراضي المحتوى المسمم من RNSAFFN. راجع تلك الصفحة للحصول على مزيد من المعلومات. يمكنك تغيير مصدر التسمم في الإعدادات.
يتم تقديم المحتوى المسمم من صفحات ذات عناوين URL مثل /dpf/<some-random-slug>/<id>. باستخدام التكوين الافتراضي، يمكنك إنشاء قاعدة fail2ban على هذا المسار لعنوان IP الذي يطلب صفحات من /dpf/ عدة مرات لصد كاشطات الويب السيئة.
الإعداد
تحتاج فقط إلى تثبيت الإضافة وتمكينها لتبدأ في أداء وظيفتها في الخلفية. يمكنك ضبط بعض الإعدادات الإضافية.
الإعدادات
تضمين جدول بالإعدادات وأوصاف الإعدادات
| الاسم | الوصف |
|---|---|
poison_fountain_source |
الموقع الإلكتروني الذي ينشئ المحتوى الذي سيتم تقديمه من الصفحات المسممة. |
poison_fountain_textual_only |
قبول المحتوى النصي فقط من مصدر التسمم. سيمنع هذا تقديم محتوى ثنائي. |
poison_fountain_force_plain_text |
تقديم المحتوى دائمًا كـ text/plain حتى لو ذكر المصدر أنه شيء مثل HTML. |
poison_fountain_update_robots_txt |
ممكّن افتراضيًا، سيضيف المحتوى المسمم إلى قائمة الاستبعاد. عناكب الويب التي تحترم robots.txt ستتجاهل المحتوى المسمم تمامًا. |
poison_fountain_cache_hours |
عدد الساعات لتخزين المحتوى مؤقتًا قبل استرداد محتوى جديد. بحد أقصى 24 ساعة. |
poison_fountain_entries |
عدد الإدخالات المسممة التي سيتم الاحتفاظ بها |
poison_fountain_link_count |
عدد الروابط التي ستتم إضافتها إلى صفحات HTML التي تم إنشاؤها |