Discourse AI - السمية

:bookmark: يغطي هذا الموضوع تكوين ميزة السمية لمكون Discourse AI الإضافي.

:person_raising_hand: مستوى المستخدم المطلوب: مسؤول

يمكن لوحدات السمية تصنيف درجة السمية لكل منشور ورسالة دردشة جديدة تلقائيًا في مثيل Discourse الخاص بك. يمكنك أيضًا تمكين وضع علامة تلقائية على المحتوى الذي يتجاوز حدًا معينًا.

يتم تخزين التصنيفات في قاعدة البيانات، لذا يمكنك تمكين المكون الإضافي واستخدام مستكشف البيانات (Data Explorer) لإنشاء تقارير عن التصنيف الذي يحدث للمحتوى الجديد في Discourse على الفور. سنقوم قريبًا بشحن بعض استعلامات مستكشف البيانات الافتراضية مع المكون الإضافي لتسهيل ذلك.

الإعدادات

  • ai_toxicity_enabled: تمكين أو تعطيل الوحدة.

  • ai_toxicity_inference_service_api_endpoint: عنوان URL حيث تعمل واجهة برمجة التطبيقات (API) لوحدة السمية. إذا كنت تستخدم استضافة CDCK، فسيتم التعامل مع هذا تلقائيًا. إذا كنت تستضيف بنفسك، تحقق من دليل الاستضافة الذاتية.

  • ai_toxicity_inference_service_api_key: مفتاح واجهة برمجة التطبيقات (API) لواجهة برمجة التطبيقات (API) للسمية المكونة أعلاه. إذا كنت تستخدم استضافة CDCK، فسيتم التعامل مع هذا تلقائيًا. إذا كنت تستضيف بنفسك، تحقق من دليل الاستضافة الذاتية.

  • ai_toxicity_inference_service_api_model: ai_toxicity_inference_service_api_model: نقدم ثلاثة نماذج مختلفة: original (أصلي)، unbiased (غير متحيز)، و multilingual (متعدد اللغات). يوصى باستخدام unbiased بدلاً من original لأنه سيحاول عدم نقل التحيزات التي أدخلتها مواد التدريب إلى التصنيف. بالنسبة للمجتمعات متعددة اللغات، يدعم النموذج الأخير الإيطالية والفرنسية والروسية والبرتغالية والإسبانية والتركية.

  • ai_toxicity_flag_automatically: وضع علامة تلقائية على المنشورات/رسائل الدردشة عندما يتجاوز التصنيف لفئة معينة الحد المحدد. الفئات المتاحة هي toxicity (سمية)، severe_toxicity (سمية شديدة)، obscene (بذيء)، identity_attack (هجوم على الهوية)، insult (إهانة)، threat (تهديد)، و sexual_explicit (صريح جنسيًا). يوجد إعداد ai_toxicity_flag_threshold_${category} لكل منها.

  • ai_toxicity_groups_bypass: لن يتم تصنيف منشورات المستخدمين في هذه المجموعات بواسطة وحدة السمية. يتضمن افتراضيًا المستخدمين الإداريين.

موارد إضافية

10 إعجابات

أقوم بضبط هذا قليلاً الآن، هل أفترض بشكل صحيح أن الحد الأعلى أكثر صرامة والحد الأدنى أكثر تساهلاً؟

إعجاب واحد (1)

أعتقد أنه كلما ارتفع الحد، كلما كان ذلك أكثر تساهلاً. سيكون الحد الأدنى أكثر عرضة لوضع علامة على منشور على أنه سام لأنه سيتطلب القليل لإثارة علامة، وبالتالي سيتطلب الحد الأعلى المزيد لإثارة علامة.
حد منخفض = سهل العبور
حد مرتفع = أصعب في العبور

إعجابَين (2)

أريد آلية لاكتشاف محاولات النشاط التجاري على موقعنا - ليس السمية بحد ذاتها، ولكنها ضارة جدًا بمجتمعنا.

هذا قريب، ولكنه ليس بالضبط ما نبحث عنه.

هل أخذت هذا البعد في الاعتبار؟

هذا مغطى بواسطة قاعدة التشغيل الآلي لمصنف منشورات Discourse AI. أخبرني كيف تسير الأمور.

4 إعجابات

هل يمكن لأحد مساعدتي في إعداده باستخدام واجهة برمجة تطبيقات Google Perspective؟ سأضع إعلانًا في السوق ولكني أعتقد أن هذا هو المكان الأنسب.

أعلم أن هذا كان قبل عام ولكن يرجى إخباري كيف سار هذا التنفيذ! أنا مهتم شخصيًا به ^^ ومع ذلك، يرجى تصحيحي إذا كنت مخطئًا @Discourse، ولكن السمات التي تذكرها في هذه الصفحة هي المقاييس الذرية لـ Perspective، كما تم تنفيذها من خلال Detoxify، لذا فإن إضافة Perspective هي نقطة لا طائل من ورائها، أليس كذلك؟

  • ai_toxicity_flag_automatically: وضع علامة تلقائية على المنشورات/رسائل الدردشة عندما يتجاوز التصنيف لفئة معينة الحد المعين. الفئات المتاحة هي toxicity و severe_toxicity و obscene و identity_attack و insult و threat و sexual_explicit. يوجد إعداد ai_toxicity_flag_threshold_${category} لكل منها.

على أي حال، يمكن تنفيذ Detoxify من قبل مجتمع Kaggle. هذا مكان رائع للعثور على شخص لتنفيذه لأنه هذا بالضبط ما يفعله Kaggle :slight_smile:

إعجابَين (2)

لقد قمنا بدمج نماذج GitHub - unitaryai/detoxify: Trained models & code to predict toxic comments on all 3 Jigsaw Toxic Comment Challenges. Built using ⚡ Pytorch Lightning and 🤗 Transformers. For access to our API, please email us at contact@unitary.ai. للتعامل مع التصنيف التلقائي للسمية وإجراء وضع علامة تلقائية عند تجاوز حد قابل للتكوين.

ما وجدناه هو أنه بينما يعمل بشكل رائع إذا كان لديك تسامح صفر مع السمية النموذجية في مثيلاتك، مثل ما تمتلكه المزيد من المثيلات “العلامات التجارية”، بالنسبة لمثيلات Discourse الأخرى الموجهة نحو المجتمع، كانت نماذج السمية صارمة للغاية، مما أدى إلى الكثير من العلامات في المثيلات الأكثر تساهلاً.

لهذا السبب، خطتنا الحالية هي إيقاف السمية ونقل هذه الميزة إلى المكون الإضافي الخاص بنا لفرز الذكاء الاصطناعي، حيث نقدم مطالبة قابلة للتخصيص للمسؤولين لتكييف اكتشاف السمية التلقائي الخاص بهم مع المستويات المسموح بها في مثيلاتهم.

نخطط أيضًا لتقديم نموذج LLM استضافة للإشراف لعملائنا، على غرار https://ai.google.dev/gemma/docs/shieldgemma أو https://arxiv.org/abs/2312.06674، والذي أدى أداءً جيدًا جدًا في تقييماتنا الداخلية مقابل نفس مجموعة البيانات المستخدمة في مسابقة Jigsaw Kaggle الأصلية التي أنتجت Detoxify.

4 إعجابات