هل يجب أن نطلب من ماسح البريد العشوائي للذكاء الاصطناعي تمييز المنشورات التي تحتوي على أرقام هواتف بشكل افتراضي؟

,

يبدو أن نوعًا شائعًا جدًا من البريد العشوائي هو منشورات دعم العملاء غير ذات الصلة، ربما في محاولة للحصول على معلومات خاطئة للظهور في نتائج الذكاء الاصطناعي أو البحث؟ غالبًا ما تحتوي هذه على أرقام هواتف… هل يجب أن نذكر أرقام الهواتف في مطالبة البريد العشوائي الخاصة بالذكاء الاصطناعي؟ من غير المحتمل أن ينشر الأشخاص هذه في حالات الاستخدام العادية؟

الموجه الافتراضي الحالي
أنت نظام للكشف عن البريد العشوائي. قم بتحليل محتوى المنشور وسياقه التالي.

ضع في اعتبارك نوع المنشور بعناية:
- بالنسبة لمنشورات الرد: تحقق مما إذا كان الرد ذا صلة وموضوعيًا بالموضوع
- بالنسبة لمنشورات الموضوع الجديد: تحقق مما إذا كان موضوعًا شرعيًا أو ترويجًا للبريد العشوائي

يعتبر المنشور بريدًا عشوائيًا إذا كان يطابق أيًا من هذه المعايير:
- يحتوي على محتوى تجاري غير مرغوب فيه أو عروض ترويجية
- يحتوي على روابط خارجية مشبوهة أو غير ذات صلة
- يظهر أنماط نشر آلية / روبوت
- يحتوي على محتوى غير ذي صلة أو إعلانات
- بالنسبة للردود: غير ذي صلة تمامًا بموضوع المناقشة
- يستخدم كلمات مفتاحية مفرطة أو أنماط نصية متكررة
- يظهر تنسيقًا أو استخدام أحرف مشبوهًا

كن صارمًا بشكل خاص مع:
- الردود التي تتجاهل المحادثة السابقة
- المنشورات التي تحتوي على روابط خارجية متعددة غير ذات صلة
- الردود العامة التي يمكن نشرها في أي مكان

كن عادلاً مع:
- المستخدمين الجدد الذين يقدمون مساهمات أولى شرعية
- المتحدثين غير الأصليين الذين يبذلون جهودًا حقيقية للمشاركة
- ذكر المنتجات ذات الصلة بالموضوع في سياقات مناسبة

معلومات خاصة بالموقع:
- اسم الموقع: {site_title}
- عنوان URL للموقع: {site_url}
- وصف الموقع: {site_description}
- أفضل 10 فئات للموقع: {top_categories}

قم بتنسيق استجابتك ككائن JSON بمفتاح واحد يسمى "spam"، وهو قيمة منطقية تشير إلى ما إذا كان المنشور بريدًا عشوائيًا أم شرعيًا.
يجب أن يكون إخراجك بالتنسيق التالي:

{"spam": xx}

حيث xx هو صحيح إذا كان المنشور بريدًا عشوائيًا، أو خطأ إذا كان شرعيًا.
رد بتنسيق JSON صالح فقط
7 إعجابات

وأعتقد أن أرقام الهواتف هذه غالبًا ما تتضمن تشويشات مختلفة لأرقام الهواتف لتجاوز اختبارات أرقام الهواتف باستخدام التعبيرات النمطية (لا أعرف حقًا، مثل، أم، يونيكود أو أي هراء آخر؟). هل هناك طريقة لجعل الذكاء الاصطناعي يبحث عن تلك الأشياء تحديدًا؟

إعجابَين (2)

يمكننا إجراء بعض الاختبارات بناءً على البريد العشوائي الذي تلقيناه، لكنني أشك في أن توجيهه للبحث عن أرقام الهواتف وتحديد أنه يجب عليه الانتباه إلى محاولات التعتيم المحتملة باستخدام يونيكود قد يكون كافياً للقبض على معظمها؟

أعتقد أنه سيكون أفضل في اكتشاف محاولات إخفاء الأرقام من التعبيرات النمطية (regex) لمجرد أنها أكثر مرونة.

إعجاب واحد (1)

بالنسبة لشخص لا يعرف الكثير عن الذكاء الاصطناعي ولا يعرف الكثير عن يونيكود (مقارنة بالمجموعة التي آمل أن تنتبه لهذا)، يبدو هذا رائعًا! :rofl:

أعتقد ذلك. نظرًا لأن الذكاء الاصطناعي يمكنه تحديد يونيكود بشكل موثوق، فلا يوجد سبب على الإطلاق لأن يحتوي رقم هاتف على يونيكود، لذلك يجب أن يكون الأمر سهلاً للغاية. في أيام التصنيف البايزي البسيط، كان رقم هاتف يونيكود مؤشرًا جيدًا جدًا على البريد العشوائي. كان لدى الكثير منها أيضًا رمز علامة تجارية غريب وبعض الرموز الأخرى.

وإذا كان بإمكانه البحث بشكل موثوق عن أشياء مثل “دعم العملاء” في شركة غير مرتبطة بالمنتدى، فسيكون ذلك أيضًا أمرًا سهلاً.

إعجابَين (2)

يعتمد الكثير من هذا على “نحن بحاجة إلى تقييمات”:

لدينا:

ما نحتاج إلى القيام به هنا هو:

  1. إضافة مجموعة كبيرة من المشاركات غير المرغوب فيها/العادية إلى مجموعة التقييم (لنقل 20-30 من كل منها)
  2. تشغيل التقييم
  3. إصلاح الموجه
  4. تشغيل التقييم مرة أخرى

وإلا فإننا نميل إلى التخبط في الظلام. إحالة @Falco

3 إعجابات