محتوى مزعج من نسخ ولصق مدفوع بالبشر

codinghorror · 8 يونيو 2019، 8:02م

Let us know if you’re still seeing this today.

jsha · 9 يونيو 2019، 6:51م

Yes, still seeing it.

For a while it died down, but then we recently increased the post edit time setting from 60 minutes to 24 hours, and within the first day we saw another instance of this edit spam.

mbauman · 23 أغسطس 2019، 2:48م

لقد لاحظنا هذا أيضًا على موقعنا، أو على الأقل ما يُعدّ مقدمة له. وقد كان مستخدمونا وموظفونا سريعين حتى الآن في ملاحظة المواد المسروقة غير الملائمة والإبلاغ عن المنشورات على أنها مشبوهة قبل أن يقوم المرسل العشوائي بربط الرسائل المزعجة.

هل يمكن أتمتة هذه العملية بالنسبة للمنشورات الأولى؟ سيكون من الرائع تحديد المواضيع الجديدة التي تحتوي على نسخ مطابقة تمامًا لمنشورات موجودة.

codinghorror · 23 أغسطس 2019، 11:35م

ليس في الوقت الحالي، فمقارنة منشور واحد بنص كل منشور آخر تم نشره على الإطلاق أمر .. مكلف للغاية.

يجب النظر في أي منشورات غريبة غير مترابطة من مستخدمين جدد بشك كبير كقاعدة عامة. هذا الأمر يكتشفها بالنسبة لي في معظم الأحيان.

jsha · 30 أغسطس 2019، 1:33ص

هذا الأسلوب يعمل بشكل جيد مع الردود، لكنه ليس بنفس الفعالية مع المواضيع الجديدة. بما أن منتدانا يقدم الدعم، فإن معظم المستخدمين الجدد يطرحون أسئلة تبدو مشابهة جدًا لأسئلة أخرى طُرحت سابقًا (وفي بعض الأحيان تكون هذه الأسئلة منسوخة من مواقع أخرى مثل Reddit، رغم أن الكثير منها يُنسخ أيضًا من موقعنا الخاص).

codinghorror · 30 أغسطس 2019، 1:59ص

نعم، من الصعب جدًا تحديد هوية هؤلاء. لقد رأيتُ أنا نفسي عددًا منهم على منصة Discourse مختلفة.

هل هي نسخ دقيقة تمامًا، أم تم تعديلها بأي شكل من الأشكال؟

mbauman · 30 أغسطس 2019، 5:29ص

في حالتنا، كانت النصوص نسخًا شبه مطابقة تمامًا. غالبًا ما يُفقد التنسيق، لكن ليس دائمًا. أحيانًا يكون الأمر مجرد جزء من المنشور. كما أنها كانت دائمًا موضوعات جديدة. ولأسباب مجهولة، كان العنوان أحيانًا هو نفسه، وأحيانًا أخرى كان العنوان الأصلي مضافًا إليه كلمة “اسم” في النهاية بشكل غير مفهوم. أتفق معك أن هذا يبدو مدفوعًا بالبشر — أعتقد أن شخصًا ما يقوم فعليًا بنسخ ولصق المحتوى يدويًا، وهذه العملية تفقد بعض الدقة. لذا، لا، فحص التجزئة البسيط لن يعمل في الغالبية العظمى من الحالات.

لم نشهد بعد تنفيذ هذه الخطة فعليًا، مهما كانت طبيعتها. في إحدى الحالات، فوّتنا منشورًا لمدة 14 يومًا ولم يُتابع الأمر. اكتشفته من خلال عنوان IP مشترك مع حساب آخر يقوم بنفس الشيء. كما أننا خفضنا إعدادات مكافحة البريد العشوائي لدينا بشكل كبير لأنه، رغم هذه المنشورات الغريبة، نادرًا ما نواجه أي بريد عشوائي حقيقي. يمكن للمستخدمين من المستوى TL0 نشر روابط خارجية وصور فورًا. ويمكنهم تعديل المنشورات. فلماذا هذه المماطلة؟ الأمر غريب جدًا.

تعديل: آه، السبب في هذه المماطلة هو أنهم لا يتجنبون فقط مرشح البريد العشوائي التلقائي، بل يتجنبون أيضًا انتباه المجتمع النشط (والإبلاغات) لأن التعديلات لا تُحدث الموضوع ما لم يكن المنشور الأحدث أيضًا. لذا، لكي تكون هذه العملية فعالة، لا يكفي أن تبدو غير ضارة، بل يجب أن تجذب ردًا.

jsha · 30 أغسطس 2019، 5:52م

مثل مات، نسخنا دقيقة في الغالب، لكنها غالبًا ما تفقد بعض التنسيق أو تكون جزءًا من المنشور. نرى هذا النوع من الرسائل المزعجة في الغالب في المواضيع الجديدة، ولكن أيضًا في بعض الردود خارج الموضوع في المواضيع الموجودة.

mnordhoff · 30 أغسطس 2019، 5:58م

لا أستطيع تذكر التفاصيل، لكنني أعتقد أنهم كانوا أحيانًا يعدّلون الروابط أو عناوين URL الموجودة في المنشورات الأصلية أيضًا. أفترض أن ذلك كان لتجاوز حدود روابط الناشر الجديدة، ولأن لا أحد يريد إرسال رسائل غير مرغوب فيها إلى موقع شخص آخر.

(كانوا يعدّلون الروابط الأصلية بشكل أكبر عند تحرير الرسائل المزعجة لاحقًا.)

(تعديل: ثلاثة مات!)

codinghorror · 7 سبتمبر 2019، 10:04ص

أخبار جيدة! لقد أضفنا ميزة للمساعدة في ذلك – فمستويات الثقة المنخفضة لديها وقت أقل لتعديل المنشورات. وهذا يجب أن يساعد في التخفيف من المغامرات المتعلقة بالتعديل.

كما ترون، فإن مستخدمو TL0 و TL1 محدودون الآن بوقت تعديل يبلغ يومًا واحدًا افتراضيًا @jsha @mnordhoff و @mbauman – قد ترغبون في تخفيض ذلك أكثر.

mbauman · 7 سبتمبر 2019، 5:27م

شكرًا لك! لقد قمت أيضًا بتعديل استعلام في مستكشف البيانات لتقديم جدول جميل لـ “التعديلات القديمة” يمكن للمسؤولين مراجعته بين الحين والآخر:

SELECT
    p.id AS post_id,
    p.updated_at,
    (p.updated_at - p.created_at) AS staleness,
    u.trust_level,
    (p.cooked LIKE '%href%') AS has_links
FROM posts p
    JOIN users u
        ON u.id = p.user_id
    JOIN topics t
        ON t.id = p.topic_id
WHERE p.last_editor_id = p.user_id
    AND p.self_edits > 0
    AND (p.updated_at - p.created_at) > INTERVAL '1 Day'
    AND p.deleted_at IS NULL
    AND t.deleted_at IS NULL
    AND t.archetype = 'regular'
ORDER BY p.updated_at DESC
LIMIT 500

jsha · 6 نوفمبر 2019، 12:13ص

هذا رائع! شكرًا جزيلاً. لقد قمنا بتحديث حد وقت تعديل المنشور إلى يوم واحد (1440 دقيقة) وسنبقيه كذلك مؤقتًا. لكنني قمت للتو بزيادة حد وقت تعديل منشورات tl2 إلى 30 يومًا (43200 دقيقة)، وهو ما يجب أن يجعل الأمور أكثر سلاسة لمستخدمينا النشطين. نقدر حقًا الجهد والتفكير اللذين بذلهما فريق Discourse في هذا.

codinghorror · 6 نوفمبر 2019، 12:57ص

رائع! أبلغنا بكيفية سير الأمور. أقترح أنه يمكنك تقليل حد التحرير الافتراضي إلى أقل من يوم واحد، خاصة الآن أن TL2 وما فوق لديها إعداد منفصل.

LotusJeff · 23 يوليو 2025، 8:45م

أقترح إضافة السطر التالي إلى عبارة Where:

    AND p.cooked ~ 'href="http[s]?://'

هذا يبحث فقط عن المشاركات التي تحتوي على روابط. أحد سمات هذا النوع من البريد العشوائي هو تضمين الروابط.

tobiaseigen · 24 يوليو 2025، 10:58م

من المثير للاهتمام أن هناك استعلام مستكشف بيانات للبحث عن “تعديلات قديمة” يمكن مراجعتها للبحث عن البريد العشوائي. لقد نظرت إليه ولكني لم أجد أي شيء سيء بشكل واضح هنا في ميتا. الاستعلام يأخذ الروابط في الاعتبار بالفعل.

لدينا الآن اكتشاف بريد عشوائي بالذكاء الاصطناعي. أنا أوصي به بشدة!

الموضوع		الردود	مرات العرض
Spam bots tricking Discourse filter by editing Support	26	3347	9 سبتمبر 2019
Free to edit post at any time Feature	33	15632	22 مايو 2023
Diagnosing spam attack of 100 topics Feature	34	3117	29 مايو 2017
People editing posts into spam Support	13	1463	20 نوفمبر 2019
Editing Old Posts and Adding Links Doesn't Alert Anybody Feature	23	7812	7 أكتوبر 2014

محتوى مزعج من نسخ ولصق مدفوع بالبشر

الموضوعات ذات الصلة