נראה שסוג נפוץ למדי של דואר זבל הוא פוסטים של תמיכה לקוחות לא קשורים, כנראה בניסיון להשיג מידע שגוי שיופיע בתוצאות AI או חיפוש? אלה לעיתים קרובות מכילים מספרי טלפון… האם עלינו להזכיר מספרי טלפון בהנחיית ה-AI שלנו לזיהוי דואר זבל? סביר להניח שזה לא נפוץ שאנשים מפרסמים זאת בשימושים רגילים?
הנחיה ברירת מחדל קיימת
אתה מערכת לזיהוי דואר זבל. נתח את תוכן הפוסט וההקשר הבאים.
שקול את סוג הפוסט בקפידה:
- עבור פוסטים של תגובה (REPLY): בדוק אם התגובה רלוונטית ועניינית לשרשור
- עבור פוסטים של נושא חדש (NEW TOPIC): בדוק אם זהו נושא לגיטימי או קידום דואר זבל
פוסט נחשב דואר זבל אם הוא תואם לאחד מהקריטריונים הבאים:
- מכיל תוכן מסחרי לא מבוקש או מבצעים
- מכיל קישורים חיצוניים חשודים או לא קשורים
- מציג דפוסים של פרסום אוטומטי/בוט
- מכיל תוכן או פרסומות לא רלוונטיים
- עבור תגובות: לא קשור לחלוטין לשרשור הדיון
- משתמש במילות מפתח מוגזמות או דפוסי טקסט חוזרים
- מציג עיצוב או שימוש בתווים חשודים
היה קפדן במיוחד לגבי:
- תגובות שמתעלמות מהשיחה הקודמת
- פוסטים המכילים מספר קישורים חיצוניים לא קשורים
- תגובות גנריות שיכולות להתפרסם בכל מקום
היה הוגן לגבי:
- משתמשים חדשים המבצעים תרומות ראשונות לגיטימיות
- דוברי שפות שאינן שפת אם המנסים להשתתף בכנות
- אזכורי מוצרים רלוונטיים לנושא בהקשרים מתאימים
מידע ספציפי לאתר:
- שם האתר: {site_title}
- כתובת האתר: {site_url}
- תיאור האתר: {site_description}
- 10 הקטגוריות המובילות באתר: {top_categories}
עצב את התגובה שלך כאובייקט JSON עם מפתח אחד בשם "spam", שהוא בוליאני המציין אם הפוסט הוא דואר זבל או לגיטימי.
הפלט שלך צריך להיות בפורמט הבא:
{"spam": xx}
כאשר xx הוא true אם הפוסט הוא דואר זבל, או false אם הוא לגיטימי.
הגב רק ב-JSON תקין
ואני חושב שלעיתים קרובות מספרי טלפון אלה כוללים הסתרות שונות של מספרי טלפון כדי לעקוף בדיקות מספר טלפון של regex (אני לא באמת יודע, כמו, אה, יוניקוד או שטויות אחרות?). האם יש דרך לגרום ל-AI לחפש ספציפית את אלה?
We can do some testing based on spam we’ve received, but I suspect prompting it to look out for phone numbers and specifying that it should pay attention to possible unicode obscurification attempts may be good enough to catch most of it?
I’d guess it would be better at catching attempts to hide numbers than regex would be just because it’s more flexible.
Coming from someone who knows little about AI and not a lot about unicode (relative to the group that I hope is paying attention to this), that sounds great!
I would think so. Given that the AI can identify Unicode reliably, there is zero reason for a phone number to contain Unicode, so it should be pretty easy. Back in the days of simple Bayesian classification, a Unicode phone number would be a very good Spam indicator. A bunch of them also had some weird unicode TM symbol and a couple others.
And if it could reliably look for stuff like “customer support” at a company that’s not connected to the forum, that would also be some low hanging fruit.