إعداد كشف المحتوى غير المناسب في مجتمعك

Saif · 10 أكتوبر 2024، 4:26ص

هذا دليل لإعداد اكتشاف المحتوى غير الآمن (NSFW) في مجتمعك باستخدام أتمتة Discourse AI لتحديد الصور والنصوص غير اللائقة والإشراف عليها.

مستوى المستخدم المطلوب: مسؤول

إعداد اكتشاف المحتوى غير الآمن (NSFW) في مجتمعك

اكتشف تلقائيًا وقم بالإشراف على المحتوى غير الآمن (NSFW) في مجتمع Discourse الخاص بك باستخدام الأتمتة المدعومة بالذكاء الاصطناعي. سيساعدك هذا الدليل في تكوين الكشف الآلي لكل من المحتوى الصوري والنصي غير اللائق، مما يسمح لك بالحفاظ على معايير المجتمع بأقل قدر من التدخل اليدوي.

ملخص

تغطي هذه الوثائق تكوين أتمتة مصنف منشورات Discourse AI لـ:

اكتشاف صور NSFW باستخدام نماذج الذكاء الاصطناعي التي تدعم الرؤية
تحديد المحتوى النصي واللغة غير اللائقة
وضع علامة تلقائية على المنشورات الإشكالية وتصنيفها والإشراف عليها
إعداد استجابات مخصصة وإجراءات الإشراف

تستخدم الأتمتة نماذج لغوية كبيرة (LLMs) لتحليل محتوى المنشورات واتخاذ إجراءات محددة مسبقًا عند اكتشاف مواد NSFW.

المتطلبات الأساسية

قبل إعداد اكتشاف NSFW، تأكد من تمكين ما يلي:

مكون Discourse AI الإضافي: المكون الإضافي الأساسي لوظائف الذكاء الاصطناعي
مكون Discourse Automation الإضافي: مطلوب لإنشاء قواعد آلية
شخصية (Persona): شخصية مع موجه نظام يحدد ما يشكل محتوى NSFW. استخدم لغة مميزة للتصنيفات الإيجابية والسلبية لتجنب الارتباك.
نموذج لغوي كبير يدعم الرؤية: مطلوب فقط لاكتشاف الصور؛ النماذج اللغوية الكبيرة القياسية تعمل للكشف النصي فقط.
- يمكن لعملاء Discourse المستضافين اختيار نموذج CDCK المستضاف الصغير (CDCK Hosted Small LLM) عند تكوين الشخصيات.
- سيحتاج مستخدمو Discourse المستضافون ذاتيًا إلى تكوين نموذج لغوي كبير تابع لجهة خارجية.

أمثلة على الموجهات:

للكشف عن الصور:

أنت روبوت متخصص في تصنيف الصور. استجب فقط بـ NSFW أو SAFE، ولا شيء آخر. NSFW هو المواد الإباحية أو الدموية، و SAFE هو كل شيء آخر. عند الشك، أجب بـ SAFE.

للكشف عن النصوص:

أنت نظام متقدم للإشراف على المحتوى بالذكاء الاصطناعي مصمم لفرز المنشورات التي ينشئها المستخدمون. مهمتك هي اكتشاف أي محتوى يتضمن لغة سيئة أو مصطلحات غير لائقة أو محتوى NSFW (غير آمن للعمل) والإبلاغ عنه.

يشمل محتوى NSFW المحتوى الجنسي الصريح، أو العنف، أو خطاب الكراهية، أو اللغة الصريحة، أو التمييز، أو الإشارة إلى إيذاء النفس، أو النشاط غير القانوني.

استجب بكلمة واحدة بالضبط:
* "SAFE": المنشور مناسب ولا يحتوي على محتوى سيء أو NSFW
* "NSFW": إذا تم اكتشاف محتوى سيء أو غير لائق أو NSFW

كن مدركًا للسياق وتجنب النتائج الإيجابية الخاطئة.

خطوات التكوين

تمكين المكونات الإضافية المطلوبة

انتقل إلى لوحة تحكم المسؤول في موقعك
اذهب إلى Plugins > Installed Plugins
قم بتمكين كل من المكونين الإضافيين Discourse AI و Automation

إنشاء قاعدة أتمتة

في لوحة تحكم المسؤول، انتقل إلى Plugins > Automation
انقر فوق + Create لبدء إنشاء قاعدة أتمتة جديدة
حدد Triage Posts Using AI
قم بتعيين اسم وصفي (على سبيل المثال، “NSFW Content Detection”)

تكوين المشغلات والقيود

تعيين المشغل:

اختر Post created/edited كمشغل
اختياريًا، حدد نوع الإجراء (Action type)، أو الفئة (Category)، أو العلامات (Tags)، أو المجموعات (Groups)، أو مستويات الثقة (Trust Levels) لتقييد نطاق الأتمتة
اترك الحقول فارغة لتطبيق الأتمتة على مستوى الموقع بأكمله

قيود اختيارية:
قم بتكوين إعدادات إضافية في قسم “ماذا/متى” (What/When) لتقييد نطاق الأتمتة بشكل أكبر، مثل استهداف المنشورات الأولى فقط من المستخدمين الجدد.

تكوين تصنيف الذكاء الاصطناعي

تم إهمال حقل موجه النظام (System prompt) لصالح الشخصيات (Personas). إذا كان لديك أتمتة ذكاء اصطناعي قبل هذا التغيير، فسيتم إنشاء شخصية جديدة تلقائيًا مع موجه النظام المرتبط بها.

الشخصية (Persona):
حدد الشخصية المعرفة لأتمتة اكتشاف NSFW.

نص البحث (Search text):
أدخل المخرج الدقيق من موجهك الذي يؤدي إلى تشغيل إجراءات الأتمتة. باستخدام الأمثلة أعلاه، أدخل NSFW.

تعيين إجراءات الإشراف

التصنيف ووضع العلامات:

حدد الفئة التي يجب نقل المنشورات التي تم وضع علامة عليها إليها
حدد العلامات التي سيتم إضافتها إلى المحتوى الذي تم تحديده على أنه NSFW

خيارات وضع العلامات:

اختر نوع العلامة: بريد مزعج (إخفاء تلقائي) أو قائمة انتظار المراجعة (مراجعة يدوية)
قم بتمكين “Hide Topic” لإخفاء المحتوى الذي تم وضع علامة عليه تلقائيًا

الاستجابات الآلية:

قم بتعيين مستخدم رد للاستجابات النظام
أنشئ رسالة مخصصة تشرح سبب وضع علامة على المنشور
اختياريًا، استخدم شخصية الذكاء الاصطناعي (AI Persona) للاستجابات الديناميكية

محاذير

ضع في اعتبارك أن استدعاءات نماذج LLM يمكن أن تكون مكلفة. عند تطبيق مصنف، كن حذرًا لمراقبة التكاليف وفكر دائمًا في تشغيله فقط على مجموعات فرعية صغيرة.
بينما ستؤدي النماذج ذات الأداء الأفضل، مثل GPT-4o، إلى نتائج أفضل، إلا أنها قد تأتي بتكلفة أعلى. ومع ذلك، فقد رأينا انخفاض التكلفة بمرور الوقت مع تحسن نماذج LLM وانخفاض أسعارها.

استخدامات أخرى

يمكن تخصيص الموجه لأداء جميع أنواع الكشف، مثل كشف معلومات التعريف الشخصية (PII) و كشف البريد المزعج. نود أن نسمع كيف تضع هذه الأتمتة في العمل لصالح مجتمعك!

fokx · 1 يناير 2026، 4:03م

قد يكون نموذج اللغة الكبير (LLM) بطيئًا، لذا قد تظل المشاركة التي تحتوي على صور غير لائقة مرئية لعدة ثوانٍ قبل أن يتم وضع علامة عليها وإخفاؤها.
أتساءل عما إذا كان يمكن إجراء اكتشاف المحتوى غير اللائق بعد قيام المستخدم بتحميل الصور وقبل إرسال المشاركة؟
حتى لو اضطر المستخدمون إلى الانتظار حتى اكتمال الفرز قبل أن يتمكنوا من إرسال المشاركة. في بعض السيناريوهات، يكون هذا مقبولاً.

الموضوع		الردود	مرات العرض
Have AI check for inappropriate post or at least words and flag the post Support ai , ai-toxicity	3	438	7 يوليو 2023
Setting up toxicity detection in your community Site Management automation , ai , how-to , moderation	0	974	7 أغسطس 2024
NSFW image blurring in chat Support chat , ai	5	547	26 سبتمبر 2024
Discourse AI - Spam detection Site Management moderation , spam , how-to , ai	24	3269	3 فبراير 2026
Experiments with AI based moderation on Discourse Meta Community moderation , ai	11	876	26 مايو 2025