كلمات تمت مشاهدتها

لقد تعرض موقعان على الأقل لموجة من الرسائل غير المرغوب فيها تبدو مصممة لتسميم نماذج اللغة الكبيرة (LLMs). وقد تم الإبلاغ عن نفس الهجوم هنا مرة واحدة على الأقل (Anyone else currently undergoing mass spam attack?). الحل الأفضل هو إعداد https://meta.discourse.org/t/discourse-ai-spam-detection/343541، وهو ما أوصي به، ولكنه مزعج بعض الشيء. إليك حل مؤقت يمكنك تنفيذه وسيستغرق بضع دقائق فقط.

يفترض هذا أن لديك نظام تشغيل شبيه بيونكس (مثل لينكس أو ماك). إذا كنت تستخدم ويندوز ويمكنك النسخ واللصق في طرفية، يمكنك الاتصال بخادم Discourse الخاص بك ولصق هذا.

ما يفعله هو إنشاء مجموعة من الكلمات المراقبة تم إنشاؤها من هجوم حديث رأيته. إذا كنت بارعًا في استخدام nano أو ما شابه، يمكنك تعديله قبل تشغيله. إذا لم تكن كذلك، يمكنك تشغيل هذا البرنامج النصي ثم حذف الكلمات التي لا تريدها بنقرة واحدة لكل كلمة.

قد تكون كلمات الحظر مزعجة للغاية لأنها ستمنع المستخدمين الشرعيين من إنشاء مشاركات تحتوي على تلك الكلمات، لذا ألقِ نظرة للتأكد من أن أيًا من هذه الكلمات من غير المرجح أن تظهر في مشاركات شرعية على منتداك!

ضع عنوان URL لموقعك ومفتاح API ومستخدم API في المربعات أدناه (ستكون فقط في متصفحك - ولكن يمكنك ببساطة لصقها كما هي وتعديل الملف إذا كنت تفضل ذلك) ثم انسخ/الصق كتلة التعليمات البرمجية في طرفية. سيؤدي ذلك إلى إنشاء upload_watched_words_full.sh وجعله قابلاً للتنفيذ. يمكنك بعد ذلك تشغيله باستخدام ./upload_watched_words_full.sh.

cat <<'EOF' > upload_watched_words_full.sh
#!/usr/bin/env bash
# Usage: ./upload_watched_words_full.sh

DISCOURSE_URL="=URL="
API_KEY="=API_KEY="
API_USERNAME="=API_USERNAME="

# High-confidence block words
BLOCK_WORDS=(
  "customer service number"
  "contact number"
  "support number"
  "refund phone number"
  "toll free"
  "24/7 support"
  "helpline"
  "call us"
  "live representative"
  "technical support"
  "lufthansa"
  "royal caribbean"
  "coinbase"
  "robinhood"
  "reservation number"
  "booking number"
  "flight cancellation"
  "name change fee"
  "║"
  "⇆"
  "★"
  "®️"
  "™️"
)

# Medium-risk flag words
FLAG_WORDS=(
  "customer service"
  "customer support"
  "support team"
  "help desk"
  "hotline"
  "agent"
  "representative"
  "contact us"
  "phone support"
  "service center"
)

# Require-approval words
REQUIRE_APPROVAL_WORDS=(
  "urgent"
  "immediate action"
  "act now"
  "limited time"
  "exclusive offer"
  "approve this"
  "verify account"
)

# Function to send words in batch
add_words () {
  local ACTION="$1"
  shift
  local WORDS=("$@")

  # Build words[] parameters
  local DATA=""
  for w in "${WORDS[@]}"; do
    DATA+="words%5B%5D=$(printf '%s' "$w" | jq -s -R -r @uri)&#"
  done
  DATA+="replacement=&action_key=${ACTION}&case_sensitive=false&html=false"

  echo "Uploading ${ACTION} words..."
  curl -s -X POST "${DISCOURSE_URL}/admin/customize/watched_words.json" \
    -H "Api-Key: ${API_KEY}" \
    -H "Api-Username: ${API_USERNAME}" \
    -H "Content-Type: application/x-www-form-urlencoded" \
    --data "$DATA"
  echo -e "\nDone."
}

# Upload block words
add_words "block" "${BLOCK_WORDS[@]}"

# Upload flag words
add_words "flag" "${FLAG_WORDS[@]}"

# Upload require-approval words
add_words "require_approval" "${REQUIRE_APPROVAL_WORDS[@]}"
EOF

# Make the script executable
chmod +x upload_watched_words_full.sh

echo "Script 'upload_watched_words_full.sh' created and made executable."

8 إعجابات

ولكن https://meta.discourse.org/t/watched-word-approval-doesnt-work-if-a-user-edits-the-reply/225668؟

حسنًا، لم أنتبه لذلك. أملي الساذج هو أن القائمين بالبريد العشوائي لن يعرفوا القيام بذلك. :person_shrugging:

إعجاب واحد (1)

كانت الروبوتات التي كانت لدينا قبل بضع سنوات تنشر هراءً مثل dhfhstyhjfhhr كعنوان للموضوع لإنشاء سلاسل رسائل ولتجاوز مرشح الكلمات الرئيسية، ثم كانت تعدله إلى رسالة البريد العشوائي الحقيقية “أفضل الكازينوهات عبر الإنترنت”. :expressionless_face:

إعجابَين (2)

هذا غريب أن التعديل على المنشور يتجاوز الكلمات المراقبة.

ربما لن يفكر هؤلاء المهاجمون في فعل ذلك. أو ربما لن يساعد هذا على الإطلاق. :person_shrugging:

إعجاب واحد (1)

شكرًا جاي، نص رائع، شكرًا لك على إنشائه. هل وجد أي شخص استخدمه أنه نجح - من حيث الحل البديل لـ “تحرير المنشورات”؟ هل تقوم الروبوتات بتحرير المنشورات أم مجرد نشر النص مباشرة؟

لا أعرف، ولكن إذا كانت هذه مشكلة، يمكنك تغيير الإعدادات بحيث لا يتمكن بعض المستخدمين من تحرير المشاركات (مجموعات مسموح لها بتحرير المشاركات)، ربما عن طريق طلب TL2 وتعديل الإعدادات لجعل الوصول إلى tl2 أسهل/أصعب.

بالنسبة للمستخدمين العاديين، وخاصة الجدد، فإن عدم القدرة على تحرير مشاركة ربما ليس أمرًا كبيرًا، وقد لا يكون شيئًا يتوقعونه.

إعجاب واحد (1)

نقطة جيدة. سأقوم بتغيير ذلك بحيث لا يتمكن tl_0 من تعديل المنشورات.

مراجعة أحد المنشورات الأخيرة:

يبدو أنه كان في البداية مجرد هراء ثم تم تعديله إلى بريد مزعج، وهذا من شأنه أن يتحايل على الكلمات المراقبة على حد فهمي.

بالنظر إلى أن تعديلات المنشورات من الهراء غير المؤذي إلى البريد المزعج أصبحت جزءًا من أسلوب عمل الروبوتات في جهودها لإحباط مرشحات البريد المزعج، فهل يعتقد فريق Discourse أنه يجب على tl_0 افتراضيًا عدم القدرة على تعديل المنشورات؟

4 إعجابات

واو. أنا متفاجئ من أن الإعداد الافتراضي يتضمن TL0.
من الجيد معرفة بالتأكيد أن هؤلاء المخادعين يستخدمون هذه الحيلة.

أعتقد أن وحدة AI Spam كانت ستكتشف ذلك.

إعجابَين (2)

بالتأكيد كانت ستكتشفه. ومع ذلك، على الرغم من أنها ليست باهظة الثمن للغاية، إلا أنها تمثل مشكلة بعض الشيء الاضطرار إلى إعداد الذكاء الاصطناعي على كل Discourse لصد البريد العشوائي. لن تحتاج العديد من منتدياتي إليه (أو تريده) لأي من ميزات Discourse AI المفيدة الأخرى.

إعجاب واحد (1)

الحل هنا ليس منع tl0 أو أي مجموعة أخرى من تعديل المنشورات.
الحل هو جعل تعديل المنشور لا يتحايل على أي حماية للموقع. يمكن للمنشور المعدل (كما رأينا) أن يحتوي على بريد مزعج أو كراهية أو سلوكيات أخرى غير مرغوب فيها. إذا تجاوزت المنشورات المعدلة الكلمات المراقبة والمرشحات الأخرى، فسيصبح هذا بالتأكيد نهجًا قياسيًا ليس فقط للروبوتات ولكن للبشر الذين يرغبون في التحايل على حماية الموقع.

3 إعجابات

أتفق. يبدو من الغريب أنه لا يعمل بهذه الطريقة. وإذا فهمت بشكل صحيح، فقد كان معطلاً لفترة طويلة.

أوه، إنها “السلوك المتوقع”:

أراهن أن هذا هو سبب حدوث ذلك، ربما.

يبدو أن الكلمات الخاضعة للمراقبة يمكن تطبيقها ببساطة قبل الحفظ، لكنني لم ألق نظرة على الكود.

إعجابَين (2)

هناك مسألة حول ما يعنيه تطبيق بعض أنواع الكلمات المراقبة على التعديل. ولكن من الواضح أيضًا أن هذا القيد يقلل بشكل كبير من قيمة الكلمات المراقبة.

أتوقع أن يكون من المفيد اقتراح مواصفات لما يجب أن يحدث بالضبط لكل نوع في حالة التعديل؛ سيجعل ذلك طلب الميزة قابلاً للتنفيذ بشكل أكبر. لم أقم بهذا العمل، على الرغم من أنني قضيت وقتًا متقطعًا في التفكير في حالات محددة.

3 إعجابات